JochenThesis
Idee
Inhalt der Diplomarbeit ist es, einen POS-Taggerins CDG-System zu integrieren. Die Idee ist die zu verarbeitenden Sätze (evtl. auch Wortgraphen) vor dem Parsen vom
Tagger annotieren zu lassen. Dies kann verschiedenen positive
Auswirkungen auf den Prozess des Parsens haben:
- Der Zeitaufwand der fuer das Parsen eines Satzes erforderlich ist, soll verringert werden.
- Kann das CDG-System Tagging-Fehler korrigieren?
- Kann das CDG-System unter mit POS--Tagger etwas, was es vorher nicht konnte? Wirkt die Verwendung des POS-Taggers sich positiv auf die Qualitaet der Ergebnisse aus?
Vorgehensweise:
- Es ist erforderlich verschiedenene Tagger zu testen und auf ihre Tauglichkeit fuer eine Integration in das CDG-System zu vergleichen. Aus dem Ergebnis dieser Evaluation sollte hervorgehen, ob ein neuer Tagger fuer das CDG-System entwickelt wird, oder ein bereits existierender Tagger modifiziert und integriert wird.}
- Enwicklung einer Kommunikationsarchitektur. Der Tagger kann entweder in das CDG-System integriert werden oder er kann als unabhaengiges Programm neben CDG existieren. In diesem Fall muss ein Protokoll für den Datenaustausch der beiden Prozesse implementiert werden.
- Intergration des Taggers in CDG. Wie werden die Resultate verrechnet?
- Evaluation. Was leistet der Tagger? Was leistet CDG unter Verwendung eines Taggers?
Was kann der perfekte Tagger fuer cdg?
Anforderungen:
- Wortgraph Tagging
- Ausgabe von mehreren gewichteten Tags pro Wort
- cdg-Tagset
Aktuelle Fragen:
- Mapping CDG-Tags/STTS-Tagset
- Wie koennen geeignete Scores für Alternativtags berechnet werden?
- Wie werden diese Tags mit CDG-Scores verrechnet?
- Wie kann eine Evaluation aussehen?
- Wie taggt man Wortgraphen?
- Wie vielversprechend ist die Verwendung von POS-Tagging im Vergleich zu anderen Techniken[z.B. chunks], die ebenfalls die zu parsenden Daten anreichern, um dadurch die Suche zu steuern?
--
JochenHagenstroem - 09 Nov 2001