Erkennen von Sprachvarianten
BearbeiterIn: NN
Betreuerin: Cerstin Mahlow
Einführung
Für die Verarbeitung natürlichsprachlicher Texte ist es notwendig, die Sprache der Texte zu ermitteln, um die entsprechenden Werkzeuge auswählen zu können. Für die diachrone Arbeit kommt noch eine weitere Schwierigkeit hinzu: Verschiedene Sprachvarianten müssen voneinander unterschieden werden. Althochdeutsche Texte können bspw. nicht mit Werkzeugen bearbeitet werden, die für neuhochdeutsch entwickelt wurden.
Um verschiedene Sprachen zu erkennen, bietet sich das Perl-Modul Lingua::Ident an. Varianten einer Sprache (egal ob diachron oder regional) sind sich jedoch zu ähnlich, um sie so unterscheiden zu können. Schliessen wir regionale Varianten aus, können Sprachvarianten durch verschiedene Zustände in der Entwicklung von Flexion und Rechtschreibung gekennzeichnet werden.
Werden ältere deutsche Texte mit modernen morphologischen Werkzeugen behandelt, ergeben sich unterschiedliche Anteile unbekannter Wortformen innerhalb eines Textes. Wortformen in Texten in moderner Schreibung werden von Stripey Zebra zu 94 bis 99% erkannt. "Unbekannt" kann eine Wortform sein,
- die einen Schreibfehler enthält,
- die entsprechend heute nicht mehr gültiger Rechtschreibregeln geschrieben ist,
- die nicht entsprechend heute gültiger Regeln flektiert wurde,
- die nicht durch heute gültige Regeln für Komposition und Derivation entstanden ist,
- deren Grundbestandteile nicht im Lexikon sind oder
- die ein Name ist, der nicht im Lexikon ist
Ältere Texte werden "normalisiert", d.h. in eine Schreibung überführt, die heutigen Regeln entspricht, um sie mit Werkzeugen für modernes Deutsch bearbeiten zu können. Solche Normalisierungsregeln berücksichtigen Schreibungen einer Wortformen zu verschiedenen Zeitpunkten, vgl. etwa die Analogieliste der Freiburger Anthologie. Verschiedene Sprachstufen sind durch spezifische morphologische Merkmale gekennzeichnet. Für jede Sprachstufe kann also ein Regelsatz entwickelt werden, der entsprechende Texte in eine moderne Schreibung überführt.
Eine Möglichkeit, eine bestimmte Sprachstufe automatisch zu erkennen, ist die Normalisierung von Wortformen, die Stripey Zebra als unbekannt kennzeichnet, mit entsprechenden Regeln. Der Regelsatz, der dazu führt, dass die Quote unbekannter Wortformen innerhalb des Textes der Quote für moderne deutsche Texte entspricht, erlaubt Schluss auf die Sprachvariante des Textes.
Alternativ kann mit Clustering-Algorithmen gearbeitet werden, die entweder nur die Wortformen berücksichtigen oder auch die Wortstellung.
Ziel und Zweck
Ziel der Arbeit ist die Entwicklung von Verfahren zur Bestimmung der Sprachvarianten für alle Texte einer grossen Textsammlung (Band 125 der Digitalen Bibliothek und Texte des Deutschen Textarchivs (DTA)). Dazu sollen Kriterien entwickelt werden, die sich generell für die Erkennung von Sprachvarianten des Deutschen eignen. Die Implementierung soll möglichst auf andere Textsammlungen übertragbar sein.
Je nach Umfang des Programmierprojekts (= benötigter ECTS-Punkte) können weitere Sprachen behandelt werden. Dies ist generell jedoch auch abhängig von der Verfügbarkeit von morphologischen Werkzeugen in genügender Qualität. Spanisch und Finnisch sind auf jeden Fall möglich.
Arbeitsschritte
- Festlegen von Kriterien hinsichtlich Rechtschreibung und Flexion für verschiedene Sprachvarianten; Festlegen, welche Sprachvarianten zu berücksichtigen sind
- Ableitung bzw. Entwicklung von Normalisierungsregeln
- (Konzeption von alternativen Clusteringalgorithmen)
- Auswahl repräsentativer Texte für die ermittelten Sprachvarianten zum Testen
- Entwicklung und Implementierung von Skripten, die die Zuweisung einer Sprachvariante für einen Text ermöglicht
- Evaluation
- Dokumentation, evtl. Publikation
Anforderungen
- Solide Perlkenntnisse
- Gute Kenntnisse der germanistischen Linguistik
- Interesse für Verarbeitung historischer Texte
Ressourcen
- XML-Export von Band 125 der Digitalen Bibliothek (allenfalls TEI-annotierte Version)
- TEI-annotierte XML-Daten der 686 Werke aus dem Deutschen Textarchiv
- Malaga (Open Source), Stripey Zebra (Institutslizenz), Perl-Malaga (Open Source)
- Normalisierungsregeln, die in Publikationen zur Arbeit mit historischen Korpora enthalten sind
