Institut für Computerlinguistik

Ankündigungen_Old
Ankündigungen
Was ist CL?
Studium
Forschung
Mitarbeitende
Institut
Events  

02.11.2010

[25.11.2010] Talk: Das Text+Berg-Korpus – Aufbau und Anwendungen

Vortragende: Martin Volk (Universität Zürich), Noah Bubenhofer (IDS Mannheim)


Datum: Donnerstag, 25. November, 17:15h
Ort: Deutsches Seminar Raum, SOD-1-105

Abstract

Im Projekt "Text+Berg" (www.textberg.ch) erschliessen wir seit 2008 alpinistische Texte. In der ersten Phase wurden Publikationen des Schweizer Alpen-Clubs (SAC) digital erfasst und korpuslinguistisch aufbereitet. Das "Jahrbuch des S.A.C." (1864–1923), das "Echo des Alpes" (1872-1923), und "Die Alpen" (1925–heute) sind eine wertvolle und umfangreiche Sammlung von Berichten, Aufsätzen und Reflexionen über den Alpinismus sowie über Kultur und Natur des Alpenraumes. Durch die zeitliche Kontinuität, in der die Reihen erschienen sind, stellen sie eine einzigartige, mehrsprachige Textbasis dar, um historische, kulturwissenschaftliche aber gerade auch sprachwissenschaftliche Fragestellungen zu beantworten.

In diesem Vortrag beleuchten wir einerseits die Schritte zur Erstellung und Annotation des Korpus. Dies umfasst Texterkennung (OCR), automatische Korrektur von OCR-Fehlern, Sprachidentifikation pro Satz, Auszeichnung mit Meta-Informationen, sowie die Erkennung von geographischen Bezeichnungen (Toponymen). Wir berichten andererseits über Analyseergebnisse zu auffälligen Sprachmustern in verschiedenen Epochen und zeigen, wie das Korpus für verschiedene Fragestellungen ausgewertet werden kann.

Stefanos Petrakis

Ankündigungen_Old

Weitere News