Stipendiaten 2006
Jennifer May
Projekttitel: Reverse Linguistic Engineering: Entwicklung eines Werkzeugs zur Erkennung von Modulen, Zitaten, Plagiaten in chinesischen Texten Hochschule: Universität Heidelberg
Studiengang: Sinologie, Computerlinguistik
Kurzbeschreibung:
Ziel des Projektes ist es, ein Analysewerkzeug zu gestalten, das vollständige chinesische Texte oder Textmengen mit einem wohldefinierten Textkorpus durch computerlinguistische Algorithmen vergleichen kann und die darin enthaltenen Textbausteine (z.B. Zitate) identifiziert. Dadurch ließe sich die Qualität linguistischer, soziologischer und historischer Textforschung enorm steigern.
Das Analysewerkzeug besteht aus vier Komponenten: (1) Die Konverter-Komponente reduziert verschiedene Kodierungen und unterschiedliche Formate auf eine Repräsentation. Diese werden in (2) der Datenverwaltung abgespeichert. Ein Nutzer kann über eine (3) Benutzerschnittstelle spezifizieren, mit welchen Datenbeständen er arbeiten will. In der (4) Analyse-Komponente werden verschiedene computerlinguistische Algorithmen wie Indizieren, n-Gramm-Vergleiche, Minimum Edit Distance, Clustering oder Multi Dimensional Scaling implementiert, mit denen sich nicht nur wörtliche Übereinstimmungen in Texten und Textmengen, sondern auch strukturelle und inhaltliche Muster aufzeigen lassen. Die Analyse kann gezielt auf Teilbereiche des Datenbestandes beschränkt werden oder auf bereits existierende (Zwischen-) Ergebnisse zurückgreifen, was die Anwendung von aufwändigen computerlinguistischen Algorithmen hoher Komplexität erst möglich macht. Die durch Schnittstellen klar definierte Trennung der vier Komponenten soll künftige Erweiterungen des Systems um weitere Konvertierungen, Datenbestände oder Algorithmen erleichtern.
