Antwortextraktion und Text Mining

Antwortextraktion

In der Antwortextraktion versucht man, Systeme zu bauen, welche in textuellen Dokumenten (z.B. sehr umfangreichen technischen Handbüchern von Software oder Flugzeugen etc.) die expliziten und wortwörtlichen Antworten auf (sprachlich formulierte) Anfragen findet. Die Antworten können ganze Sätze sein, oder aber nur Teile eines Satzes.

Wichtig ist, dass nicht (wie bei Systemen wie Google etc.) ganze Dokumente gefunden werden, welche bezüglich bestimmter Stichwörter relevant sind, sondern konkrete Antworten auf konkrete Fragen. Um diese Leistung zu erbringen, muss die Bedeutung sowohl der Texte wie auch der Fragen automatisch ermittelt und in eine logische  Repräsentation überführt werden.

Dies setzt seinerseits eine möglichst vollständige syntaktische Analyse des sprachlichen Inputs voraus. Ebenfalls sehr wichtig ist die Kenntnis der Fachterminologie des Gebiets;ohne diese findet das System nur einen kleinen Teil der effektiv in den Texten vorhandenen Antworten.

Text Mining

Im Text Mining versucht man, unbekannte Regularitäten und Abhängigkeiten in grossen Kollektionen von Texten zu erkennen. Die heute dazu verfügbaren Methoden operieren im wesentlichen auf statistischer Basis an der Textoberfläche (d.h. sie ermitteln statistische Werte für isolierte  Inhaltswörter). Sie sind deshalb wenig geeignet, Abhängigkeiten zwischen komplexen in den Texten beschriebenen Phänomenen (z.B. ganzen Ereignissen) zu erkennen. Zur Erfassung komplexerer Phänomene muss man mehr von der linguistischen Information in den Texten verwenden. Insbesondere ist es unerlässlich, eine weit tiefere syntaktische Analyse der Texte durchzuführen.

Eine spezifische Form des Text Mining ist Literature Based Discovery. Dabei versucht man in  verschiedenen, auch disparaten, Texten Beschreibungen von lokalen funktionalen Abhängigkeiten zu finden, welche in Kombination zu Hypothesen über bisher unbekannte übergreifende funktionale Abhängigkeitsketten führen können. In der Biomedizin (z.B. in der Genomik) werden solche Methoden z.B. angewendet, um neue Pathways in der Expression von Genen zu suchen.

Eine wichtige Teilaufgabe des Text Mining ist die Relationsextraktion. Hierbei werden die Kernaussagen in den einzelnen Sätzen von Texten identifiziert, und zwar unabhängig von ihrer konkreten sprachlichen Formulierung (X activates Y, Y is activated by X, activation of Y by X, XY activation etc.).  Allein schon auf der Basis dieser immer noch sehr groben Analyse kann man z.B. weit präzisere Suchoperationen formulieren, als dies anhand der üblichen Stichwortsuchen möglich wäre.

Kollaborationen

Finnova

In Zusammenarbeit mit Finnova, einem der führenden Schweizer Entwickler von Bankensoftware, untersuchen wir Anwendungen im Bereich der Informationsextraktion. Spezifisch planen wir, Fragen und Anforderungen interner und externer User automatisch zu analysieren und relevante Passagen aus firmeninternen Dokumenten anzuzeigen. Die darin enthaltenen Informationen erlauben es dem menschlichen Experten, vollständige Antworten zu den ursprünglichen Fragen effizient zu formulieren.

Mantra

Das EU-Projekt mit dem Titel "Multilingual Annotation of Named Entities and Terminology Resources Acquisition" (Mantra) ist eine Zusammenarbeit zwischen verschiedenen akademischen und industriellen Partnern. Das Projekt hat zum Ziel, dass biomedizinische Terminologien in verschiedenen Sprachen aus öffentlich zugänglichen Texten herausgefiltert werden. Hierzu organisieren die Projektpartner einen Wettbewerb zur Annotation der Texte in verschiedenen Sprachen und werden die erkannten Entitäten dann in öffentliche Terminologien integrieren.