MBCDN

Dies ist eine alte Version des Dokuments!

UTF-8 ist eine Methode, Unicode-Zeichen als Folge von Bytes zu speichern. Sie ist variabel in der Länge: Ein Zeichen kann aus 1 bis 4 Bytes bestehen. ASCII-Zeichen (0–127) werden wie gewohnt in 1 Byte gespeichert. Zeichen darüber verwenden 2 bis 4 Bytes.

Beispiel: „á“ (U+00E1) wird in UTF-8 als zwei Bytes gespeichert: 0xC3 0xA1.

Vorteile:

Abwärtskompatibel zu ASCII.
Effizient für englische Texte.
Weltweit am häufigsten verwendetes Format (z. B. im Web, in JSON, HTML, etc.).

Bits of code point	First code point	Last code point	Bytes in sequence	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	0xxxxxxx
11	U+0080	U+07FF	2	110xxxxx	10xxxxxx
16	U+0800	U+FFFF	3	1110xxxx	10xxxxxx	10xxxxxx
21	U+10000	U+1FFFFF	4	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx
26	U+200000	U+3FFFFFF	5	111110xx	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx
31	U+4000000	U+7FFFFFFF	6	1111110x	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx

Die auf 1 gesetzten Bits im ersten Byte sind die Anzahl der insgesamt verwendeten Bytes.

Siehe auch utf16, utf32

Links

https://www.quora.com/What-is-UTF8

MBCDN

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Links

Seiten-Werkzeuge