Stipendiaten 2008
Johannes Knopp, Carina Silberer und Wolodja Wentland

- Carina Silberer, Johannes Knopp und Wolodja Wentland
Projekttitel: Building a Multilingual Corpus for Named Entity Disambiguation, Translation and Transliteration
Hochschule: Universität Heidelberg
Studiengang: Computerlinguistik
Kurzbeschreibung
HeiNER - die Heidelberger Named Entity Ressource
Das Projekt hat zum Ziel, automatisch mit Hilfe von Wikipedia eine große
multilinguale Datenbank - die Heidelberger Named Entity Ressource
(HeiNER) - zu erstellen. Darin enthalten sind Named Entities
(Eigennamen) mit ihren sprachlichen Kontexten sowie Transliterationen
und Übersetzungen in einer Vielzahl von Sprachen.
Motivation:
Im Regelfall können Named Entities nicht in Wörterbüchern nachgeschlagen
werden, automatische Sprachverarbeitungssysteme betrachten sie deshalb
als unbekannte Wörter. Für viele Anwendungen der Computerlinguistik sind
daher Verfahren notwendig, die Named Entities erkennen und ihrer
korrekten semantischen Klasse (z.B. Person, Firma, Ort) zuordnen.
Moderne Methoden zur Erkennung und Klassifikation von Eigennamen beruhen auf statistischen Lernverfahren. Diese benötigen große Mengen von
Trainingsdaten, die manuell mit erheblichem Aufwand für jede Sprache
einzeln aufbereitet werden müssen und aus diesem Grund nur begrenzt zur
Verfügung stehen. Deshalb erreichen viele Lernsysteme ihre maximale
Leistung noch nicht. Signifikante Verbesserungen verspricht man sich
durch Verfahren, die automatisch große Mengen von Trainingsdaten
generieren können.
HeiNER:
Diesen Ansatz verfolgt das Projekt HeiNER. Aus der Online-Enzyklopädie
Wikipedia werden zunächst Named Entites für eine Sprache extrahiert und
dann deren Übersetzungen und Transliterationen (Übertragungen in andere
Schriftsysteme) mithilfe der Sprachlinks in Wikipedia gewonnen.
Anschließend werden für alle Named Entites in den zahlreichen Sprachen
Textabschnitte gespeichert, in denen sie auftreten. Diese stellen die
Trainingsdaten für Lernsysteme dar: Aus dem textuellem Umfeld der
Named Entites werden statistische Regelmäßigkeiten gelernt, mit Hilfe
derer Eigennamen in neuen Textvorkommen automatisch klassifiziert werden
können.
Zusammenfassend bietet HeiNER folgendes:
1. Ein Named Entity Wörterbuch für eine Vielzahl von Sprachen
2. In jeder dieser Sprachen eine Sammlung von Kontexten zu jeder Named
Entity
Die Ergebnisse und Programme des Projekts sollen frei verfügbar gemacht
werden.
Genaueres dazu und weitere Details zum Projekt findet man unter
http://heiner.cl.uni-heidelberg.de
