Automatische Klassifikation grosser Dokumentensammlungen

BearbeiterIn: N.N.

Betreuer: Gerold Schneider

Einführung

Ziel dieser praxisbezogenen Programmierarbeit oder Bachelorarbeit ist die Klassifikation grosser Mengen an Zeitungsartikeln. Das Projekt wird in Zusammenarbeit mit einer schweizerischen Mediendatenbank geführt. Vorhanden sind Schnittstellen, die Dokumente in XML oder JSON-Form hergeben. Untersucht werden sollen OpenSource Tools wie z.B. WEKA, Rapidminer, Date oder andere. Neben dem Testen verschiedener Algorithmen und Methoden steht deren Evaluierung im Zentrum, ein umfangreicher Gold Standard wird uns dazu in der Mediendatenbank zur Verfügung gestellt. Je nach zur Verfügung stehender Zeit können auch spezifische Anpassungen der Standardlösungen erfolgen.

Ziel und Zweck

  • Testen von Open Source tools zur Dokumentklassifikation
  • Evaluierung
  • ggf. Anpassungen
  • Falls die Aufgabe erfolgreich gelöst wird, kann sie zum Aufbau einer neuen Lösung bei unserem Industriepartner führen.

Anforderung

Programmierkenntnisse in Python, Perl oder Java. Erfahrung mit XML und Tools wie WEKA ist von Vorteil aber nicht zwingend. Interesse an automatischer Medieninhaltsanalyse.

Literatur