Benutzer-Werkzeuge

Webseiten-Werkzeuge


regex

Einige Zeichen, die in regulären Ausdrücken spezielle Bedeutungen haben (wie *, +, ?), müssen in der Regel mit einem Escape-Zeichen (\) versehen werden, um ihre wörtliche Bedeutung zu erhalten. Zum Beispiel würde \.,
usw. in einem regulären Ausdruck verwendet, um die Zeichen . und \ wörtlich zu interpretieren. Ein . bedeutet eigentlich „beliebiges Zeichen“, ein ? wäre ein Lookaround und \ würde die Interpretation des nächsten Zeichen aufheben.

Pseudo Overview

Zeichenauswahl

  • . → beliebiges Zeichen
  • .* → beliebiges Zeichen, mehrmals
  • [a, b, c] → a, b oder c
  • [0-9a-zA-Z] → Beliebiges Zeichen von 0 bis 9, a bis z oder A - Z
  • [^a] → Ein a am Anfang

Zeichenklassen

  • \d → Ziffer
  • \D → Keine Ziffer
  • \w → Buchstabe, Ziffer oder Unterstrich
  • \W → Zeichen, das weder Buchstabe noch Ziffer noch Unterstrich ist
  • \s → Leerzeichen
  • \S → kein Leerzeichen

Quantoren

  • ? → Der voranstehende Ausdruck ist optional, er kann einmal vorkommen, braucht es aber nicht, das heißt, der Ausdruck kommt null- oder einmal vor.
  • + → Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen.
  • * → Der voranstehende Ausdruck darf beliebig oft (auch keinmal) vorkommen.
  • {n} → Der voranstehende Ausdruck muss exakt n-mal vorkommen.
  • {min,} → Der voranstehende Ausdruck muss mindestens min-mal vorkommen.
  • {min, max} → Der voranstehende Ausdruck muss mindestens min-mal und darf maximal max-mal vorkommen.
  • {0, max} → Der voranstehende Ausdruck darf maximal max-mal vorkommen.

Sonstige Steuerzeichen

  • ^ → steht für den Zeilenanfang (nicht zu verwechseln mit ^ bei der Zeichenauswahl mittels [ und ]).
  • $ → kann je nach Kontext für das Zeilen- oder Zeichenketten-Ende stehen, wobei bei manchen Implementierungen noch ein „\n“ folgen darf. Das tatsächliche Ende passt zu \z.
  • \ → hebt gegebenenfalls die Metabedeutung des nächsten Zeichens auf (siehe Maskierungszeichen). Beispielsweise lässt der Ausdruck (A\*)+ die Zeichenketten „A*“, „A*A*“ usw. zu. Auf diese Weise lässt sich auch ein Punkt „.“ mit \. suchen, während nach \ mit
    gesucht wird.
  • \b → leere Zeichenkette am Wortanfang oder am Wortende
  • \B → leere Zeichenkette, die nicht den Anfang oder das Ende eines Wortes bildet
  • \< → leere Zeichenkette am Wortanfang
  • \> → leere Zeichenkette am Wortende
  • \n → ein Zeilenumbruch im Unix-Format
  • \r → ein Zeilenumbruch im (alten, d. h. vor dem Jahr 1999) Mac-Format
  • \r\n → ein Zeilenumbruch im DOS- und Windows-Format
  • \t → ein Horizontal-Tabulatorzeichen
regex.txt · Zuletzt geändert: 2023/08/28 00:56 (Externe Bearbeitung)