Charakterisierung der eingesetzten Algorithmen
Neben den sogenannten exakten Algorithmen existieren Verfahren, die eine Suche nach ähnlich lautenden bzw. ähnlich geschriebenen Zeichenketten ermöglichen. Sie lassen sich grob in unscharfe (»fuzzy«) Algorithmen im engeren Sinne und sogenannte phonetische Algorithmen unterteilen. Während erstere - wie z. B. k-differences - die Unterschiede zwischen Zeichenketten berechnen, indem sie die Anzahl der für einen Abgleich erforderlichen Transformationen (Löschungen, Einfügungen, Ersetzungen) ermitteln, werden bei phonetischen Algorithmen die zu vergleichenden Zeichenketten zuvor auf ihre lautliche Grundstruktur reduziert.
Im Rahmen der GESA-Recherche stehen Varianten der am weitesten verbreiteten phonetischen Reduktionsverfahren Soundex und Metaphone zur Verfügung. Der für die Kodierung von Personennamen seit seiner Patentierung in den Jahren 1918 und 1922 gebräuchliche Soundex-Code besteht aus einer Folge Buchstabe Ziffer Ziffer Ziffer (z. B. R341), wobei die Ziffern Gruppen jeweils ähnlich lautender Konsonanten repräsentieren. In seiner ursprünglichen Fassung sieht Soundex die folgenden Kodierungen vor:
Code |
Zeichen |
1 |
B F P V |
2 |
C G J K Q S X Z |
3 |
D T |
4 |
L |
5 |
M N |
6 |
R |
Unmittelbar aufeinanderfolgende Buchstaben, die derselben Gruppe angehören, werden nur einmal durch die betreffenden Codes ersetzt. Die verbleibenden Zeichen A, E, I, O, U, W, Y, H werden grundsätzlich nicht kodiert; sie bleiben jedoch - wie alle anderen Zeichen auch - als Buchstaben erhalten, wenn sie am Wortanfang stehen. Codes mit weniger als vier Stellen werden durch Nullen aufgefüllt. Beispiele: "Fischer" - F260; "Merkel" - M624; "Gerhard" - G663.
Metaphone wurde 1990 von Lawrence Philips mit dem explizit formulierten Ziel entwickelt, Soundex zu "verbessern". Zwar bestehen insofern Gemeinsamkeiten, als auch Metaphone Vokale nach dem ersten Zeichen ignoriert und verschiedene Zusammenfassungen von Lauten (Bsp.: d und t) vornimmt; im Gegensatz zu Soundex werden Buchstaben jedoch nicht isoliert kodiert, sondern in verschiedenen - hier nicht im Einzelnen diskutierten - Kontexten betrachtet. Insgesamt sieht Metaphone eine Reduktion des Alphabets auf 16 konsonantische Laute vor:
B X S K J T F H L M N P R 0 W Y
wobei X für den "SCH"-Laut steht, 0 das englische "TH" repräsentiert. Aus praktischen Gründen werden Metaphone-Codes in ihrer Länge in der Regel auf vier Zeichen beschränkt; ein Auffüllen mit Nullen oder anderen Zeichen findet nicht statt. Beispiele: "Fischer" - FSKR; "Merkel" - MRKL; "Gerhard" - JRHR.
Ein großer Vorteil des Einsatzes phonetischer Algorithmen in Verzeichnissen wie GESA besteht in der Möglichkeit, die jeweiligen Codes im Vorfeld berechnen zu lassen und in der Datenbank in indizierter Form abzuspeichern; schnelle und effiziente Zugriffe sind somit selbst bei großen Datenmengen gewährleistet. Ein nicht unerheblicher Nachteil hingegen ist dem Umstand geschuldet, dass phonetische Algorithmen immer an ein spezifisches Lautsystem gebunden sind. Die obigen Beispiele - denen die Originalimplementationen von Soundex und Metaphone zugrundeliegen - lassen dies bereits deutlich erkennen; so wird die Zeichenfolge SCH (vgl. "Fischer") im Metaphone-Original mit SK kodiert, was der Aussprache des englischen "school" entspricht, die mit JR kodierte Folge GER in "Gerhard" folgt ebenfalls der englischen Lautung von Wörtern wie "German".
Vor diesem Hintergrund sind einerseits Algorithmen entwickelt worden, die eine Untersuchung auch multiethnischer Verhältnisse zumindest in Ansätzen erlauben (Guth - 1976, DoubleMetaphone - 2000); vor allem aber ist eine Fülle von sprachspezifischen Varianten der beschriebenen phonetischen Algorithmen entstanden. Auch für GESA wurden eigene Implementationen entwickelt, die im folgenden Abschnitt näher beschrieben werden sollen.
Implementationsdetails
Während die in GESA implementierte Metaphone-Variante speziell mit Blick auf (früh-)neuzeitliche deutsche Namensformen und deren gebräuchliche Latinisierungen entwickelt wurde, folgt das eingesetzte Soundex-Kodierungssystem primär dem Ziel, auch abgelegenere Schreibungsvarianten zu erfassen (was nicht selten zu größeren und auf den ersten Blick wenig nachvollziehbaren Ergebnissen führen kann). Aus diesem Grund wurde auf die Beibehaltung des ersten Buchstabens bei der Bildung der Soundex-Codes zugunsten einer numerischen Kodierung auch dieses Zeichens verzichtet. Ein Auffüllen mit Nullen findet nicht statt. Zusätzlich wurden die Zuordnungen zu Lautgruppen gegenüber dem auf englische Sprachverhältnisse bezogenen Original modifiziert:
Code |
Zeichen |
1 |
A E I O U H J Y |
2 |
D T |
3 |
B F P V W |
4 |
C G K Q S X Z |
5 |
M N |
6 |
L |
7 |
R |
Die oben genannten Beispiele werden somit wie folgt kodiert: "Fischer" - 347; "Merkel" - 5746; "Gerhard" - 4772.
Die für GESA entwickelte Metaphone-Variante weist eine Fülle spezieller Kontext-Kodierungen auf, die hier nicht im einzelnen diskutiert werden sollen; sie betreffen die bereits angesprochenen Latinisierungen, aber etwa auch Zeichenfolgen wie -CHS-, -CKS- und -X-, die in bestimmten Konstellationen einen gemeinsamen Code erhalten. Vokale am Wortanfang werden in zwei Gruppen ("hell" und "dunkel") zusammengefasst. Für konsonantische Laute finden die folgenden Zeichen Verwendung:
C F H J L M N K P R S 5 T X
wobei C den "CH"-Laut repräsentiert, 5 für das deutsche "SCH" steht. Die resultierenden Codes sind bis zu fünfstellig. Beispiele: "Fischer" - F5R; "Merkel" - MRKL; "Gerhard" - KRRT; "Nida-Rümelin" - NTRML.
Zu den Besonderheiten des hier implementierten Verfahrens gehört die Berücksichtigung des Umstands, dass bei mehreren Vornamen Reihenfolge und Anzahl derselben in den Quellen nicht immer konsistent dokumentiert wurden. Bei der phonetischen Suche ist es deshalb ausreichend, sich ggf. zunächst auf die Angabe eines Vornamens zu beschränken, der vielleicht zeitweise an nachgeordneter Stelle geführt wurde. Dieselbe Funktionalität kann aber auch im Zusammenhang mit Herrschaftstiteln sinnvoll eingesetzt werden; sollen etwa die Nachweise zu sämtlichen erfaßten Landgräfinnen und Landgrafen von Hessen-Kassel ausgegeben werden, so ist als Suchbegriff lediglich die Zeichenfolge Hessen-Kassel, Landgraf einzugeben.