Organisation Reguläre Ausdrücke

Was sind Reguläre Ausdrücke?

Reguläre Ausdrücke (kurz: Regex) sind eine spezielle Art, um Muster in Texten zu finden. Sie helfen dabei, bestimmte Begriffe oder Strukturen in großen Textmengen zu suchen und zu filtern – egal, ob sie genau so geschrieben sind oder in leicht abgewandelter Form vorkommen.

Denke an eine Spezialsuche, die z. B. alle Varianten eines Namens, Datums oder Formats erkennt, ohne dass du jede mögliche Schreibweise einzeln eingeben musst.

Treffer werden dabei wie eine »Enthält«-Suche behandelt, d. h. es wird nach dem Muster gesucht, unabhängig von der Position im Text. Bei der Suche nach

18\d{2}
wird also jedes Vorkommen von »18« gefolgt von zwei Ziffern gefunden, z. B. »1812«, »1899«, dass in einem Feld vorkommt. Es kann so z.B. nach Jahreszahlen in einem Beschreibungstext gesucht werden, bei welchem eine größer-kleiner-Suche nicht möglich wäre.

Wichtige Regex-Befehle

Regex-BefehlBedeutung
.
Ein beliebiges Zeichen außer Zeilenumbruch
^
Beginn der Zeile
$
Ende der Zeile
*
0 oder mehr Wiederholungen des vorherigen Zeichens
+
1 oder mehr Wiederholungen des vorherigen Zeichens
?
0 oder 1 Wiederholung des vorherigen Zeichens (optional)
{n}
Genau n Wiederholungen des vorherigen Zeichens
{n,}
Mindestens n Wiederholungen des vorherigen Zeichens
{n,m}
Zwischen n und m Wiederholungen des vorherigen Zeichens
\d
Eine Ziffer (0-9)
\D
Kein Ziffernzeichen
\w
Ein Wortzeichen (a-z, A-Z, 0-9, _)
\W
Kein Wortzeichen
\s
Ein Leerzeichen (inkl. Tab, Zeilenumbruch)
\S
Kein Leerzeichen
[abc]
Eines der Zeichen a, b oder c
[^abc]
Keines der Zeichen a, b oder c
[a-z]
Ein beliebiges Zeichen von a bis z
[0-9]
Eine Ziffer von 0 bis 9
(abc)
Gruppierung, um zusammengehörige Teile zu erfassen
``

Warum ist das nützlich?

Museale Datenbanken enthalten oft uneinheitliche Einträge, weil sie aus unterschiedlichen Quellen stammen. Mit regulären Ausdrücken kann man:
Fehlertolerante Suchen durchführen
Unterschiedliche Schreibweisen abdecken
Schneller gezielt Informationen finden

Für komplexere Suchen sind reguläre Ausdrücke ein mächtiges Werkzeug, das Museen hilft, ihre Daten effizient zu durchsuchen.


Beispiele

1. Suche nach Künstlernamen mit unterschiedlichen Schreibweisen

Ein Künstlername kann in verschiedenen Varianten gespeichert sein.

Regex:

Claude Monet|C\.? Monet|Monet, Claude

Findet:

  • Claude Monet
  • C. Monet
  • C Monet
  • Monet, Claude

2. Suche nach Werken mit alternativen Schreibweisen

Museale Einträge enthalten oft Titel mit oder ohne Bindestrich bzw. Leerzeichen, z. B. Stillleben, Still-Leben, Still Leben.

Regex:

Still[- ]?leben

Findet:

  • Stillleben
  • Still-Leben
  • Still Leben

3. Suche nach Jahreszahlen (z. B. alle Werke aus dem 19. Jahrhundert)

Wenn du alle Werke aus dem 19. Jahrhundert suchst (also zwischen 1800 und 1899), kannst du einen Regex nutzen:

Regex:

18\d{2}

Findet:

  • 1805
  • 1832
  • 1899

4. Suche nach verschiedenen Materialarten

Ein Kunstwerk kann aus verschiedenen Materialien bestehen, die unterschiedlich geschrieben werden, z. B. Öl auf Leinwand, Öl auf Holz, Ölgemälde.

Regex:

Öl auf (Leinwand|Holz)|Ölgemälde

Findet:

  • Öl auf Leinwand
  • Öl auf Holz
  • Ölgemälde

5. Suche nach Inventarnummern mit variablen Trennzeichen

Inventarnummern können mit unterschiedlichen Trennzeichen gespeichert sein, z. B. 123-456, 123/456, 123.456.

Regex:

\d{3}[-/.]\d{3}

Findet:

  • 123-456
  • 123/456
  • 123.456