Parallele Baumbanken als Ressource für hybride maschinelle Übersetzung

SQUOIA-Projekt: Forschung zur maschinellen Übersetzung von Spanisch-Quechua und Spanisch-Deutsch

Die Forschung zur maschinellen Übersetzung hat sich in den letzten Jahren vermehrt auf statistische Ansätze konzentriert. Die Qualität von statistischen Übersetzungssystemen hängt entscheidend davon ab, ob grosse parallele Korpora als Trainingsmaterial verfügbar sind. Für viele Sprachpaare, wie z.B. Spanisch-Quechua, sind jedoch nur wenige übersetzte Texte vorhanden. Aus diesem Grund macht es Sinn, für solche Sprachpaare hybride Ansätze zu untersuchen, die statistische mit regelbasierten Methoden kombinieren.

Machu Picchu

Wir behandeln in diesem Projekt die maschinelle Übersetzung von Spanisch zu Quechua und Spanisch zu Deutsch.

Quechua ist eine Gruppe von eng verwandten Sprachen, die von 8-10 Millionen Menschen in Peru, Bolivien und Ecuador, aber auch im Süden Kolumbiens und im Nordwesten Argentiniens gesprochen werden. In diesem Projekt beschränken wir uns auf den Quechua Dialekt, der in der Region Cuzco (Peru) gesprochen wird.

Zweisprachiges Schild in Cuzco

Dieser Ansatz ermöglicht es uns, ein typologisch sehr unterschiedliches Sprachpaar (Spanisch-Quechua) mit einem typologisch näheren Sprachpaar (Spanisch-Deutsch), für das ausserdem grössere linguistische Ressourcen (bilinguale Korpora, Wörterbücher, etc.) vorhanden sind, zu vergleichen. Dieser Kontrast wird ausserdem neue Erkenntnisse zur Entwicklung von maschinellen Übersetzungssystemen unter ganz unterschiedlichen Bedingungen liefern. Die Wahl von Spanisch als Ausgangssprache ist sowohl aus theoretischen, als auch aus praktischen Gründen sinnvoll, da dies einerseits einen sehr nahen Vergleich der beiden Systeme erlaubt, und andererseits die Nutzung von bereits vorhandenen Tools zur Sprachanalyse für Spanisch ermöglicht.

Für Quechua haben wir bereits morphologische Module implementiert zur Analyse von Wortformen und zur Rechtschreibprüfung und zur orthographischen Normalisierung.

Projektleiter:

Doktoranden:

Dieses Projekt wird durch den Schweizerischen Nationalfonds zur Förderung der wissenschaftlichen Forschung finanziert. Das Projekt hat 2011 angefangen und dauert insgesamt 3 Jahre.

Ein kurzer Bericht ist im März 2013 im Schweizer Forschungsmagazin Horizonte erschienen.

Versión española:

El proyecto SQUOIA: Investigando la traducción automática del Español al Quechua y del Español al Alemán

Durante los últimos años, el enfoque dominante en la investigación de la traducción automática ha sido el procesamiento estadístico. La desventaja de este método es que se necesita gran cantidad de textos paralelos, un requisito imposible de cumplir para muchos idiomas. Asimismo, los textos traducidos del Español al Quechua no son suficiente para el desarrollo de un sistema basado en estadística.
Dadas estas circunstancias, queremos explorar como método alternativo la combinación de reglas de transferencia con estadísticas.
Además queremos comparar sistemas desarrollados con dicho tecnología híbrida para dos pares de idiomas muy distintos: Español - Quechua y Español - Alemán.

La familia Quechua es un grupo de lenguas genéticamente relacionadas que se hablan en los Andes, mayormente en el Perú, Bolivia, Ecuador, en la parte sureña de Colombia y también en el noroeste de Argentina. El número de hablantes varía entre 8 y 10 millones, según fuentes distintas.
Para este proyecto nos limitamos a la variedad que se habla en Cuzco.

El procedimiento híbrido nos permite estudiar a fondo un par de idiomas que son tipológicamente muy distintos (Español - Quechua).
La comparación con un par de idiomas más parecidos (Español - Alemán), nos permite utilizar, para este par, amplios recursos lingüísticos (córpora bilingües, diccionarios bilingües, herramientas de análisis y generación).
El contraste observado va a aclarar cómo funciona el desarrollo de sistemas de traducción automática bajo circunstancias muy distintas. La selección de Español como idioma de origen es favorable desde un punto de vista teórico y práctico: Nos facilita una comparación profunda, además nos permite reutilizar herramientas de código abierto para el análisis lingüístico del Español.

Ya hemos desarrollado herramientas para el análisis morfológico y la corrección ortográfica del Quechua.

Jefe del proyecto:

Investigadoras:

Un informe ha sido publicado en marzo de 2013 en la revista suiza de investigación científica (solo en francés y alemán).