UTF-32 ist ein [[zeichensatz|Zeichensatz]] der [[Unicode]]-Zeichen als **Folgen von 4-Byte-Einheiten** (16 Bit) bei der **jedes Zeichen genau 4 Bytes** (32 Bit) belegt – unabhängig vom tatsächlichen Codepoint.

  * "á" (U+00E1) wird als 0x000000E1 gespeichert.
  * "😀" (U+1F600) wird als 0x0001F600 gespeichert.

Vorteile:

  * Sehr einfach zu verarbeiten (jedes Zeichen = 4 Bytes).
  * Kein Surrogate-Handling notwendig.

Nachteile:

  * Hoher Speicherbedarf (auch für einfache Texte).
  * Wenig effizient in der Praxis.

^ Code point range ^ Encoding Format ^
| U+00000000 – U+10FFFF | 32-bit: 1 code unit, zero-padded |
| (e.g., U+0041 → 00000000 00000000 00000000 01000001) |