Benutzer-Werkzeuge

Webseiten-Werkzeuge


utf8

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

utf8 [2025/05/07 09:12]
utf8 [2025/11/12 18:55] (aktuell)
Zeile 1: Zeile 1:
 +UTF-8 ist ein [[zeichensatz|Zeichensatz]], [[Unicode]]-Zeichen als Folge von Bytes zu speichern. Er ist **variabel in der Länge**: Ein Zeichen **kann aus 1 bis 4 Bytes bestehen**. [[ASCII]]-Zeichen (0–127) werden wie gewohnt in 1 Byte (bzw. 7 Bit) gespeichert. Zeichen darüber verwenden 2 bis 4 Bytes.
  
 +Beispiel: "á" (U+00E1) wird in UTF-8 als zwei Bytes gespeichert: 0xC3 0xA1.
 +
 +Vorteile:
 +
 +  * Abwärtskompatibel zu [[ASCII]].
 +  * Effizient für englische Texte.
 +  * Weltweit am häufigsten verwendetes Format (z. B. im Web, in JSON, HTML, etc.).
 +
 +
 +
 +^ Bits of code point ^ First code point ^ Last code point ^ Bytes in sequence ^ Byte 1 ^ Byte 2 ^ Byte 3 ^ Byte 4 ^ Byte 5 ^ Byte 6 ^
 +| 7 | U+0000 | U+007F | 1 | 0xxxxxxx | | | | | |
 +| 11 | U+0080 | U+07FF | 2 | 110xxxxx | 10xxxxxx | | | | |
 +| 16 | U+0800 | U+FFFF | 3 | 1110xxxx | 10xxxxxx | 10xxxxxx | | | |
 +| 21 | U+10000 | U+1FFFFF | 4 | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | | |
 +| 26 | U+200000 | U+3FFFFFF | 5 | 111110xx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | |
 +| 31 | U+4000000 | U+7FFFFFFF | 6 | 1111110x | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
 +
 +Die auf 1 gesetzten Bits im ersten Byte sind die Anzahl der insgesamt verwendeten Bytes.
 +
 +Siehe auch [[utf16]], [[utf32]]
 +
 +=====Links=====
 +
 +https://www.quora.com/What-is-UTF8