Syntaxanalyse und Grammatikkonstruktion

Syntaxanalyse

Das Errechnen von syntaktischen Strukturen ist von zentraler Bedeutung für viele der von uns gebauten Systeme. Dabei steht die Computerlinguistik vor einem Dilemma: Grosse maschinenverwendbare Grammatiken von Hand zu schreiben ist extrem aufwendig. Eine Alternative dazu ist das Errechnen von Grammatiken aus (von Hand vor-analysierten) Trainings-Corpora. Dabei ergeben sich aber oft Grammatiken, welche viele Konstruktionen in linguistisch unbefriedigender Form (oder auch gar nicht) analysieren, und andere in linguistisch unintuitiver Form. Die Kombination einer handgeschriebenen Kerngrammatik, welche durch statistisch über Corpora ermittelte lexikalische Werte ergänzt wird, hat sich als sehr fruchtbare Lösung dieses Dilemmas erweisen. Die auf diese Art im Rahmen eines   Dissertationsprojekts entstandene Grammatik des Englischen hat sich auch bei der Analyse sehr grosser Textmengen bewährt

Auflösen von Ambiguitäten

Ein Problem, das alle Bereiche der Computerlinguistik durchdringt, ist die grosse Anzahl von Ambiguitäten (Mehrdeutigkeiten) in der menschlichen Sprache. Erneut erweist sich das manuelle Schreiben von Regelsätzen zu ihrer Auflösung als praktisch undurchführbar. Um dies effizient und zuverlässig durchführen zu können, muss man entsprechende statistische Werte über manuell desambiguierten Texten ermitteln. Dies ist das Thema mehrerer Projekte.

Auflösung anaphorischer Referenzen

Definite Nominalphrasen, und hier v.a. definite Pronomina, können sich formal meist auf mehrere mögliche Textstellen („Antezedenten“) beziehen, obwohl nur eine einzige derartige anaphorische Beziehung intendiert ist. Das Ermitteln der intendierten Beziehung ist erneut am besten durch eine Kombination von regelbasierten und statistikgestützten Verfahren zu realisieren. Dies ist das Thema eines neuen SNF-Projekts.