Sprachverarbeitung für ressourcenarme Sprachvarietäten

lorelai

 

Ziel: Das Ziel des Projekts LORELAI (LOw-REsource natural LAnguage processIng) ist die Entwicklung von Methoden und Architekturen, welche die Verarbeitung natürlicher Sprache für ressourcenarme Sprachvarietäten vorantreiben.

ForschendeNoëmi Aeplis PhD Projekt wird betreut von Rico Sennrich und co-betreut von  Yves Scherrer (Universität Helsinki)

Funding: Dieses Projekt wird vom Schweizer Nationalfonds (Doc.CH Stipendium) finanziert und läuft 2020 - 2024.

Zusammenfassung: Im Rahmen meines Forschungsprojekts arbeite ich an der Verarbeitung natürlicher Sprache (NLP) für ressourcenarme Sprachvarietäten. Das Projekt befasst sich mit verschiedenen Problemen, mit denen moderne (state-of-the-art) NLP-Systeme zu kämpfen haben, wenn sie mit einer anderen als den 23 Standardsprachen (wie Englisch, Chinesisch und Spanisch) arbeiten. Für die meisten der ~7000 bekannten Sprachen auf unserem Planeten reichen die verfügbaren Daten nicht aus, um NLP-Systeme zu erstellen. Der ursprüngliche Zweck der Arbeit an NLP-Problemen bestand darin, Systeme zu schaffen, die Sprachbarrieren abbauen und den Menschen den Zugang zu wichtigen, in einer anderen Sprache verfassten Informationen ermöglichen würden. Dies ist besonders wichtig für Regionen, in denen hauptsächlich Minderheitensprachen gesprochen werden. Ein Ziel ist es daher, dateneffizientere Methoden zu entwickeln, die mit weniger Daten auskommen. Darüber hinaus weisen Nicht-Standard-Sprachen eine hohe Variabilität auf, was für jedes auf Statistiken basierende System Probleme aufwirft. Daher ist die Verringerung dieser Variabilität von wesentlicher Bedeutung, um die Probleme der Datenrarität zu verringern. Wir planen, dies zu lösen, indem wir eine normalisierte Darstellung für dialektale Variationen finden.

poster