Exploiting Parallel Treebanks for Hybrid Machine Translation

SQUOIA-Project: Investigating Spanish to Quechua and Spanish to German Machine Translation

Machine translation (MT) research has been dominated by the statistical approach in recent years. But this approach requires large parallel corpora as training material. For many language pairs (as e.g. Spanish - Quechua) there exist only small amounts of translated written texts. Therefore it is worthwhile to explore alternative paths that allow the development of hybrid machine translation systems which combine the rule-based approach with statistical methods.

Machu Picchu

We have chosen to investigate the automatic translation from Spanish to Quechua and from Spanish to German.

Quechua is a group of closely related indigenous languages, spoken by 8-10 million people in Peru, Bolivia, Ecuador, Southern Colombia and the North-West of Argentina. In this project, we confine ourselves to the variety spoken in the region of Cuzco (Peru).

Bilingual sign in Cuzco

This approach allows us to study one pair of languages which are typologically clearly different (Spanish - Quechua). We will contrast this language pair with a typologically closer pair (Spanish - German) which enables us to use larger linguistic resources (bilingual corpora, bilingual dictionaries, language analysis and generation tools). This contrast will shed new light on the development of MT systems under very different conditions. The use of Spanish as source language is advantageous from a theoretical and practical perspective. It allows close comparisons and profits from the availability of open source analysis modules for Spanish.

On the Quechua side, we have already implemented the morphological components for analysis and spell checking. Furthermore, we built a text normalizer that converts Southern Quechua text written in any orthography to the unified Southern Quechua orthography developed by R. Cerrón-Palomino.

Project head:

Researchers:

The project is funded by the Swiss National Science Foundation for three years starting in 2011.

Versión española:

El proyecto SQUOIA: Investigando la traducción automática del Español al Quechua y del Español al Alemán

Durante los últimos años, el enfoque dominante en la investigación de la traducción automática ha sido el procesamiento estadístico. La desventaja de este método es que se necesita gran cantidad de textos paralelos, un requisito imposible de cumplir para muchos idiomas. Asimismo, los textos traducidos del Español al Quechua no son suficiente para el desarrollo de un sistema basado en estadística.
Dadas estas circunstancias, queremos explorar como método alternativo la combinación de reglas de transferencia con estadísticas.
Además queremos comparar sistemas desarrollados con dicho tecnología híbrida para dos pares de idiomas muy distintos: Español - Quechua y Español - Alemán.

La familia Quechua es un grupo de lenguas genéticamente relacionadas que se hablan en los Andes, mayormente en el Perú, Bolivia, Ecuador, en la parte sureña de Colombia y también en el noroeste de Argentina. El número de hablantes varía entre 8 y 10 millones, según fuentes distintas.
Para este proyecto nos limitamos a la variedad que se habla en Cuzco.

El procedimiento híbrido nos permite estudiar a fondo un par de idiomas que son tipológicamente muy distintos (Español - Quechua).
La comparación con un par de idiomas más parecidos (Español - Alemán), nos permite utilizar, para este par, amplios recursos lingüísticos (córpora bilingües, diccionarios bilingües, herramientas de análisis y generación).
El contraste observado va a aclarar cómo funciona el desarrollo de sistemas de traducción automática bajo circunstancias muy distintas. La selección de Español como idioma de origen es favorable desde un punto de vista teórico y práctico: Nos facilita una comparación profunda, además nos permite reutilizar herramientas de código abierto para el análisis lingüístico del Español.

Ya hemos desarrollado herramientas para el análisis morfológico y la corrección ortográfica del Quechua. Además, hemos implementado un sistema que normaliza textos del Quechua sureño en cualquier ortografía automáticamente a la ortografía unificada diseñada por R. Cerrón-Palomino.

Jefe del proyecto:

Investigadoras: