Benutzer-Werkzeuge

Webseiten-Werkzeuge


utf8

Dies ist eine alte Version des Dokuments!


UTF-8 ist eine Methode, Unicode-Zeichen als Folge von Bytes zu speichern. Sie ist variabel in der Länge: Ein Zeichen kann aus 1 bis 4 Bytes bestehen. ASCII-Zeichen (0–127) werden wie gewohnt in 1 Byte gespeichert. Zeichen darüber verwenden 2 bis 4 Bytes.

Beispiel: „á“ (U+00E1) wird in UTF-8 als zwei Bytes gespeichert: 0xC3 0xA1.

Vorteile:

  • Abwärtskompatibel zu ASCII.
  • Effizient für englische Texte.
  • Weltweit am häufigsten verwendetes Format (z. B. im Web, in JSON, HTML, etc.).
Bits of code point First code point Last code point Bytes in sequence Byte 1 Byte 2 Byte 3 Byte 4 Byte 5 Byte 6
7 U+0000 U+007F 1 0xxxxxxx
11 U+0080 U+07FF 2 110xxxxx 10xxxxxx
16 U+0800 U+FFFF 3 1110xxxx 10xxxxxx 10xxxxxx
21 U+10000 U+1FFFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
26 U+200000 U+3FFFFFF 5 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
31 U+4000000 U+7FFFFFFF 6 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Die auf 1 gesetzten Bits im ersten Byte sind die Anzahl der insgesamt verwendeten Bytes.

Siehe auch utf16, utf32

utf8.1746602236.txt.gz · Zuletzt geändert: 2025/05/07 09:17 von admin