Bulletin4Corpus

Bulletin4Corpus

Am Institut für Computerlinguistik wird ein paralleles Korpus für Deutsch, Französisch, Italienisch und Englisch aufgebaut. Das Korpus besteht aus dem Credit Suisse Bulletin, welches seit 1895 teilweise in vier Sprachen erscheint. Das Magazin enthält Texte über wirtschaftliche und gesellschaftsrelevante Themen und ist somit weder ein Bankenheft noch eine Unternehmenspublikation. Dies macht das Bulletin als Trainingskorpus für Applikationen wie Maschinelle Übersetzung interessant, da es Zugang zu einem anderen, z.B. für Zeitungen und Magazine geeigneten Genre bietet.

Seit der ersten Ausgabe 1998 sind die Hefte als PDF veröffentlicht, ältere stehen zusammengefasst in Büchern zur Verfügung. Aus den PDF’s wird Text extrahiert und annotiert, sowie auf Artikel- und Satzebene aligniert. Die Bücher werden eingescannt und in weitere Releases integriert.

Ausserdem haben wir mit den „News“ der Credit Suisse Webseite ein Korpus aufgebaut, welches rund 500 Artikel in Deutsch, Französisch, Italienisch und Englisch enthält.

Projektleiter:

Mitarbeiter: