Benutzer-Werkzeuge

Webseiten-Werkzeuge


unicode

Inhaltsverzeichnis

Unicode ist ein internationaler Standard zur Kodierung, Darstellung und Handhabung von Text in den meisten modernen Computersystemen und Anwendungen. Er wurde entwickelt, um eine einheitliche und konsistente Möglichkeit zu bieten, Zeichen aus den vielen verschiedenen Schriftsystemen der Welt zu codieren und darzustellen. Unicode ermöglicht es, nahezu jedes Schriftzeichen aus nahezu jeder Sprache und viele andere Symbole in digitalen Systemen zu verwenden.

Unicode selbst ist lediglich ein Zeichensatz, aber um ihn in digitalen Systemen zu speichern oder zu übertragen, wird eine Kodierung benötigt. Die häufigsten Unicode-Kodierungen sind:

  • UTF-8: Eine weit verbreitete Kodierung, die variable Längen verwendet, um Zeichen zu kodieren. Sie ist mit ASCII kompatibel und effizient, da sie für Zeichen, die im ASCII-Bereich liegen, nur ein Byte benötigt.
  • UTF-16: Verwendet zwei oder vier Bytes pro Zeichen und ist weit verbreitet in vielen Systemen wie Java und Windows.
  • UTF-32: Verwendet immer vier Bytes pro Zeichen und ist einfach zu handhaben, aber speicherintensiver.

Aufbau

Unicode verwendet ein numerisches System, um Zeichen zu kodieren, wobei jedes Zeichen durch eine eindeutige Zahl, den sogenannten Codepunkt, dargestellt wird. Ein Codepunkt wird in der Form U+XXXX angegeben, wobei XXXX eine hexadezimale Zahl ist. Zum Beispiel ist der Codepunkt für das Zeichen „A“ U+0041, und der Codepunkt für das Emoji „😊“ ist U+1F60A.

Unicode-Bereiche

Unicode ist in verschiedene Bereiche unterteilt, um Zeichen aus verschiedenen Schriftsystemen und Symbolkategorien zu gruppieren. Die wichtigsten Bereiche umfassen:

  • Basic Multilingual Plane (BMP): Umfasst die ersten 65.536 Codepunkte (von U+0000 bis U+FFFF) und enthält Zeichen für die meisten modernen und historischen Schriftsysteme.
  • Supplementary Multilingual Plane (SMP): Enthält Zeichen für weniger gebräuchliche Schriftsysteme und auch Emojis (U+010000 bis U+1FFFF).
  • Supplementary Ideographic Plane (SIP): Beinhaltet zusätzlich verwendete chinesische Schriftzeichen und asiatische Schriftsysteme.
  • Supplementary Special-purpose Plane (SSP): Enthält Symbole für spezielle Zwecke, wie mathematische und technische Symbole.
unicode.txt · Zuletzt geändert: 2025/05/07 09:20 von admin