SPARCLING

SPARCLING (large-scale parallel corpora to study linguistic variation)

Ziel des Projektes ist die Annotation und Verknüpfung (Satz- und Wortebene) eines grossen parallelen Textkorpus. Solche Korpora stellen eine wichtige Resource für die Untersuchung sprachlicher Variation über verschiedene Sprachpaare dar. Als Fallstudie liegt der Fokus in diesem Projekt auf variablem Gebrauch von Artikeln. Das Projekt macht sich die Tatsache zu Nutzen, dass in einer Sprache ein Artikel gebraucht wird, in der Übersetzung allenfalls nicht, um besonders an Nullartikel zu gelangen.

Übersetzte Dokomente in multilingualen Kontexten sind eine wertvolle Resource sowohl für automatische Sprachverarbeitung als auch für linguistische Studien. Ihre Nützlichkeit für kontrastive linguistische Fragestellungen wird vor allem durch die automatische Verknüfung auf Satz- und Wortebene wesentlich gesteigert. Ziel des Projektes ist daher die Alignierung und automatische Annotation (Wortart und Satzstruktur) eines grossen, multilingualen Korpus.

Selbst in verwandten Sprachen wie dem Deutschen und Englischen kommt es vor, dass einem Element in der einen Sprache ein Nullelement in der anderen entspricht. Solche Nullelemente sind in Untersuchungen von Einzelsprachen kaum zu erheben. Ziel des Projektes ist es, variable Artikelgebrauch (inclusive Nullkontexte) im Korpus zu untersuchen, mit besonderem Fokus auf Nullartikeln im Englischen.

Variabler Artikelgebrauch im Englischen ist von daher relevant, als die Englische Sprache zunehmend als Zweitsprache erworben wird, auch von Sprechern, deren Muttersprache keine Artikel kennt oder in der Artikel abweichend gebraucht werden. Ziel des Projektes ist die detaillierte Beschreibung des Artikelgebrauchs und somit wichtige Grundlagenforschung für Sprachvermittlung und maschinelle Übersetzung.

Der computerlinguistische Beitrag des Projektes liegt in der automatischen Alignierung und Annotation sowie der Entwicklung eines geeigneten Abfragesystems. Während es effiziente Abfragesoftware für einzelsprachliche Korpora bereits gibt, ist die Entwicklung effizienter Abfragetools für grosse wort-alignierte parallele Korpora eine Herausforderung.

Projektleiter:

Forschende:

The project is funded by the Swiss National Science Foundation.