NLP für Schweizerdeutsch

NOAH's Corpus

Dieses Projekt wird unterstützt vom Institut für Computerlinguistik, an welchem es im Rahmen eines Seminars im Frühlingssemester 2012 entstanden ist.

Schweizerdeutsch ist ein Dialektkontinuum von Dialekten, die sich stark von Standarddeutsch (die offizielle Sprache der Deutschschweiz) unterscheiden. Wenn in Sprachverarbeitungssystemen mit mit Dialekten gearbeitet wird wird jedoch bis anhin ein Umweg über Standarddeutsch gewählt, unter anderem weil Ressourcen fehlen. In den letzten Jahren hat Schweizerdeutsch deutlich an Popularität gewonnen, vor allem auch was die schriftliche Sprache angeht. Deshalb möchten wir Ressourcen bereitstellen, welche als Grundlage für die automatische Sprachverarbeitung von Dialekten dienen.

Wir haben NOAH's Corpus of Swiss German Dialects zusammengestellt, welches aus verschiedenen Text-Genres besteht und manuell mit Part-of-Speech tags annotiert wurde. Das erste Release vom September 2014 enthält 70'000 Tokens, das aktuelle von Mai 2015 enthält 115'000 Tokens.

Des weiteren haben wir dieses Korpus als Trainingsset für einen statistischen Part-of-Speech tagger (BTagger) verwendet und eine Genauigkeit von 90% erreicht.

Darüber hinaus sind wir im Prozess des Aufbaus eines Dialektidentifikationssystems via Buchstaben n-Gramm Ansatz. Das entwickelte Baseline System für fünf grosse Dialekte erreicht einen F-Score von 0.66.

Für Downloads und mehr Information besuchen Sie Swiss German Language Processing

Projektleiterinnen:

Publikationen:

  • Nora Hollenstein and Noëmi Aepli. "Compilation of a Swiss German Dialect Corpus and its Application to PoS Tagging." COLING 2014 (2014): 85.