Dies ist eine alte Version des Dokuments!
UTF-8 ist eine Methode, Unicode-Zeichen als Folge von Bytes zu speichern. Sie ist variabel in der Länge: Ein Zeichen kann aus 1 bis 4 Bytes bestehen. ASCII-Zeichen (0–127) werden wie gewohnt in 1 Byte gespeichert. Zeichen darüber verwenden 2 bis 4 Bytes.
Beispiel: „á“ (U+00E1) wird in UTF-8 als zwei Bytes gespeichert: 0xC3 0xA1.
Vorteile:
Bits of code point | First code point | Last code point | Bytes in sequence | Byte 1 | Byte 2 | Byte 3 | Byte 4 | Byte 5 | Byte 6 |
---|---|---|---|---|---|---|---|---|---|
7 | U+0000 | U+007F | 1 | 0xxxxxxx | |||||
11 | U+0080 | U+07FF | 2 | 110xxxxx | 10xxxxxx | ||||
16 | U+0800 | U+FFFF | 3 | 1110xxxx | 10xxxxxx | 10xxxxxx | |||
21 | U+10000 | U+1FFFFF | 4 | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | ||
26 | U+200000 | U+3FFFFFF | 5 | 111110xx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | |
31 | U+4000000 | U+7FFFFFFF | 6 | 1111110x | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
Die auf 1 gesetzten Bits im ersten Byte sind die Anzahl der insgesamt verwendeten Bytes.