Maschinelle Übersetzung für romanische Idiome
Übersetzungssysteme für Rätoromanisch ↔ Deutsch fokussieren aktuell auf die Standardschriftsprache Rumantsch Grischun. In diesem Projekt ergänzen wir die Auswahl der verfügbaren Systeme um die fünf Idiome des Rätoromanischen (Sursilvan, Sutsilvan, Surmiran, Puter, Vallader).
Damit maschinelle Übersetzung für rätoromanische Idiome möglich wird, braucht es insbesondere geeignete Daten. Ein wichtiges Element des Projekts ist daher die Sammlung von parallelen Trainingsdaten sowie die Erarbeitung von Referenzübersetzungen und Evaluierungsdaten für alle fünf Idiome.
Um dieses Ziel zu erreichen, arbeiten wir eng mit der Lia Rumantscha und mit RTR zusammen, und wir kooperieren mit Institutionen wie der PHGR, um idiomspezifische Textdaten der Forschungsöffentlichkeit zur Verfügung zu stellen.
Leiter der Forschungsgruppe
Projektmanagement
Forschungsassistenz
Angela Heldstab, Dominic Fischer, Zdeněk Šnajdr
Frühere Mitarbeitende
Sina Ahmadi, Zachary Hopton, Anna Rutkiewicz
Publikationen
Zachary Hopton, Jannis Vamvas, Andrin Büchler, Anna Rutkiewicz, Rico Cathomas, and Rico Sennrich. 2025. The Mediomatix Corpus: Parallel Data for Romansh Idioms via Comparable Schoolbooks. Pre-print. [cite] [data] [code]
Apertus Team. 2025. Apertus: Democratizing Open and Compliant LLMs for Global Language Environments. Technical Report. [cite] [model]
Medienspiegel
The New Yorker: “Valley of Babel,” by Simon Akam. December 8, 2025 issue. https://www.newyorker.com/magazine/2025/12/08/a-very-big-fight-over-a-very-small-language
Blick Online: “Schweizer KI Apertus im Test: Wer ist Bundesrat Vinterti Monic?”, by Thomas Benkö and Tobias Bolzern. September 2, 2025. https://www.blick.ch/digital/schweizer-ki-apertus-im-test-wer-ist-bundesrat-vinterti-monic-id21193504.html
- «Noch detaillierter wurde die Sprachkompetenz [von Apertus] von der Uni Zürich geprüft: Dort übersetzten Forscherinnen und Forscher mit Apertus über 1000 Texte in Rumantsch Grischun und die fünf Idiome Sursilvan, Sutsilvan, Surmiran, Puter und Vallader. Dabei war alles von Zeitungsartikeln über Science-Fiction bis zu YouTube-Tutorials. Ergebnis: Apertus schlägt sich besser als andere offene Modelle wie Llama oder GPT-OSS, erreicht aber längst nicht das Niveau menschlicher Übersetzer.»