Downloads und Ressourcen
NLP-Ressourcen by CL@UZH
Besuchen Sie den ZurichNLP auf Github
Hier geht's zu unseren Online-Demos
Weitere Ressourcen zum Download oder auf Anfrage
- Annotated News Commentary 11 corpus in Spanish (automatisch getaggt, geparst, NER, Korreferenzen aufgelöst)
- Co-reference resolution pipeline for Spanish (conll, Adaptation für Spanisch zu https://github.com/dtuggener/CorZu)
- Quechua repository of project SQUOIA, enthält Textkorpora, hybrides MT-System, Morphologie-Werkzeuge (xfst, foma), Baumbanken
- bulletin4corpus: Paralleles Korpus kreiert aus den Credit Suisse Bulletin
- Ein manuell korrigiertes wortartengetaggtes Korpus von ca. 62.000 Token (Language: German; Domain: Reports about the University of Zurich; PoS-Tagset: STTS)
- 4561 deutsche Testfälle (ZIP, 122 KB) für PP-Anbindung aus der Computerzeitung verwendet in der Habilitationsschrift: Martin Volk: The automatic resolution of prepositional phrase attachment ambiguities in German. University of Zurich. 2001.
- 3000 Sätze, welche vollständig im NEGRA-Format annotiert sind (Computerzeitung) Bitte Martin Volk kontaktieren.
- Der deutschsprachige Thesaurus UniNet mit ca. 20'000 Nomen im WordNet-Format zum Anwendungsbereich (schweizerisches) Universitätsvokabular (im Web anschauen). Für andere Formate bitte Simon Clematide kontaktieren.
- SMULTRON Stockholm MULtilingual TReebank
- Ein Python script (ZIP, 10 KB) zur Berechnung von vollständigen Lemmas für elliptische deutsche Komposita entwickelt von Noëmi Aepli 2013
- Deutsch-Rätoromanisches Parallelkorpus erstellt von Manuela Weibel in ihrer Masterarbeit
- NOAH's Corpus of Swiss German Dialects manuell annotiert mit POS Tags
- Manuell geparste Dependenzbäume für Schweizerdeutsch, erstellt von Noëmi Aepli in ihrer Masterarbeit
- The Gold Standard corpus of temporal annotations von zirka 34,000 Tokens. Das Korpus enthält 50 historische Rechtstexte in Frühneuhochdeutsch aus der Sammlung der schweizerischen Rechtsquellenstiftung.