NLP für Schweizerdeutsch

NOAH's Corpus - Part-of-Speech Tagging für Schweizerdeutsch

Dieses Projekt wird unterstützt vom Institut für Computerlinguistik, an welchem es im Rahmen eines Seminars im Frühlingssemester 2012 entstanden ist.

Schweizerdeutsch ist ein Dialektkontinuum von Dialekten, die sich stark von Standarddeutsch (die offizielle Sprache der Deutschschweiz) unterscheiden. Wenn in Sprachverarbeitungssystemen mit mit Dialekten gearbeitet wird wird jedoch bis anhin ein Umweg über Standarddeutsch gewählt, unter anderem weil Ressourcen fehlen. In den letzten Jahren hat Schweizerdeutsch deutlich an Popularität gewonnen, vor allem auch was die schriftliche Sprache angeht. Deshalb möchten wir Ressourcen bereitstellen, welche als Grundlage für die automatische Sprachverarbeitung von Dialekten dienen.

Wir haben NOAH's Corpus of Swiss German Dialects zusammengestellt, welches aus verschiedenen Text-Genres besteht und manuell mit Part-of-Speech tags annotiert wurde. Das erste Release vom September 2014 enthält 70'000 Tokens, das aktuelle von Mai 2015 enthält 115'000 Tokens.

Des weiteren haben wir dieses Korpus als Trainingsset für einen statistischen Part-of-Speech tagger (BTagger) verwendet und eine Genauigkeit von 90% erreicht.

Darüber hinaus sind wir im Prozess des Aufbaus eines Dialektidentifikationssystems via Buchstaben n-Gramm Ansatz. Das entwickelte Baseline System für fünf grosse Dialekte erreicht einen F-Score von 0.66.

Besuchen Sie die offizielle Webseite  Swiss German Language Processing für mehr Informationen, Updates sowie Downloads.

Publikationen:

  • Noëmi Aepli, Nora Hollenstein, Simon Clematide. NOAH 3.0: Recent Improvements in a Part-of-Speech Tagged Corpus for Swiss German Dialects. SwissText 2018: 116. 
  • Nora Hollenstein & Noëmi Aepli. A Resource for Natural Language Processing of Swiss German Dialects. GSCL 2015: 108. 
  • Nora Hollenstein & Noëmi Aepli. Compilation of a Swiss German Dialect Corpus and its Application to PoS Tagging. VarDial@COLING 2014: 85.

Dependency Parser

NOAH's Korpus dient als Grundlage für ein weiteres NLP für Schweizerdeutsch Projekt: Universal Dependency Parsing für Schweizerdeutsch.