Institut für Computerlinguistik

Ankündigungen
Was ist CL?
Studium
Forschung
Mitarbeitende
Institut
Events  

Parallele Baumbanken

SMULTRON - Stockholm MULtilingual TReebank

Das Institut für Computerlinguistik arbeitet an der Weiterführung des Projektes SMULTRON, einer Baumbank über parallelen Texten. Bisher wurden je 500 Bäume aus dem Roman "Sofies Welt", aus Geschäftsberichten und aus einem Benutzerhandbuch syntaktisch annotiert und sprach-übergreifend aligniert. Diese parallele Baumbank ist in Deutsch, Englisch und Schwedisch verfügbar. Bitte hier registrieren.

Wir planen, die Baumbank um weitere Textsorten und weitere Sprachen zu ergänzen. Im nächsten Release werden die 500 Sätze aus dem oben erwähnten Benutzerhandbuch auch in Spanisch erhältlich sein.

Wir experimentieren aber auch mit typologisch weit entfernten Sprachen und haben eine kleine parallele Baumbank Quechua-Spanisch erstellt.

Eine andere Dimension der Erweiterung zielt auf eine semantische Annotation der bestehenden Bäume.

Die Annotationen sind ist unter einer Creative Commons-Lizenz lizenziert.

Creative Commons Licence

TreeAligner

Das Institut für Computerlinguistik arbeitet an der Weiterentwicklung eines Werkzeuges zum Alignieren und Durchsuchen von parallelen Baumbanken. Die Syntaxbäume wie auch die Alignierung werden graphisch angezeigt. Der TreeAligner erlaubt das Alignieren von Wörtern aber auch Knoten von parallelen Bäumen. Die Alignierung unterscheidet derzeit zwischen präziser und ungefährer inhaltlicher Entsprechung.

Das Suchmodul ist angelehnt an die TIGER-Abfragesprache, erlaubt jedoch die Suche über parallelen Bäumen und deren Alignierung.