Einige Zeichen, die in regulären Ausdrücken spezielle Bedeutungen haben (wie *, +, ?), müssen in der Regel mit einem Escape-Zeichen (\) versehen werden, um ihre wörtliche Bedeutung zu erhalten. Zum Beispiel würde \.,
usw. in einem regulären Ausdruck verwendet, um die Zeichen . und \ wörtlich zu interpretieren. Ein . bedeutet eigentlich „beliebiges Zeichen“, ein ? wäre ein Lookaround und \ würde die Interpretation des nächsten Zeichen aufheben.
Pseudo Overview
Zeichenauswahl
. → beliebiges Zeichen
.* → beliebiges Zeichen, mehrmals
[a, b, c] → a, b oder c
[0-9a-zA-Z] → Beliebiges Zeichen von 0 bis 9, a bis z oder A - Z
[^a] → Ein a am Anfang
Zeichenklassen
\d → Ziffer
\D → Keine Ziffer
\w → Buchstabe, Ziffer oder Unterstrich
\W → Zeichen, das weder Buchstabe noch Ziffer noch Unterstrich ist
\s → Leerzeichen
\S → kein Leerzeichen
Quantoren
? → Der voranstehende Ausdruck ist optional, er kann einmal vorkommen, braucht es aber nicht, das heißt, der Ausdruck kommt null- oder einmal vor.
+ → Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen.
* → Der voranstehende Ausdruck darf beliebig oft (auch keinmal) vorkommen.
{n} → Der voranstehende Ausdruck muss exakt n-mal vorkommen.
{min,} → Der voranstehende Ausdruck muss mindestens min-mal vorkommen.
{min, max} → Der voranstehende Ausdruck muss mindestens min-mal und darf maximal max-mal vorkommen.
{0, max} → Der voranstehende Ausdruck darf maximal max-mal vorkommen.
Sonstige Steuerzeichen
^ → steht für den Zeilenanfang (nicht zu verwechseln mit ^ bei der Zeichenauswahl mittels [ und ]).
$ → kann je nach Kontext für das Zeilen- oder Zeichenketten-Ende stehen, wobei bei manchen Implementierungen noch ein „\n“ folgen darf. Das tatsächliche Ende passt zu \z.
\ → hebt gegebenenfalls die Metabedeutung des nächsten Zeichens auf (siehe Maskierungszeichen). Beispielsweise lässt der Ausdruck (A\*)+ die Zeichenketten „A*“, „A*A*“ usw. zu. Auf diese Weise lässt sich auch ein Punkt „.“ mit \. suchen, während nach \ mit
gesucht wird.
\b → leere Zeichenkette am Wortanfang oder am Wortende
\B → leere Zeichenkette, die nicht den Anfang oder das Ende eines Wortes bildet
\< → leere Zeichenkette am Wortanfang
\> → leere Zeichenkette am Wortende
\n → ein Zeilenumbruch im Unix-Format
\r → ein Zeilenumbruch im (alten, d. h. vor dem Jahr 1999) Mac-Format
\r\n → ein Zeilenumbruch im DOS- und Windows-Format
\t → ein Horizontal-Tabulatorzeichen