|
... home of all NatsWeb users
|
Diplomarbeit von Jochen Hagenströmbetreut von Prof. Dr. Wolfgang Menzel und Frank Schilder abgegeben am 27.01.02:Part--of--Speech Tagging als Vorverarbeitung zur Dependenzanalyse natürlicher Sprache Diplomarbeit. Informatik, Universität Hamburg. (ps, pdf) IdeeInhalt der Diplomarbeit ist es, einen POS-Tagger in den CDG-Parser zu integrieren. Die Idee ist, die zu verarbeitenden Sätze (evtl. auch Wortgraphen), vor dem Parsen vom Tagger annotieren zu lassen, in der Annahme, daß Tagging-Informationen wertvoll für den Parsing-Prozeß sind. Dies kann verschiedene positive Auswirkungen auf den Prozeß des Parsens haben:
ArchitekturDie Integrationsarchitektur wurde so gewählt, daß es grundsätzlich möglich ist unterschiedliche POS-Tagger mit verschiedenen Grammatiken zu verwenden. Die Prozeßkommunikation zwischen Parser und Tagger durch ein einfaches Kommunikationsprotokoll geregelt. Eine Tabelle implementiert die Übersetzung der Ausgaben des POS-Taggers in die Sprache der verwendeten Grammatik. Dadurch wird es möglich unterschiedliche Tagger zu verwenden und gleichzeitig unabhängig von einer bestimmten Grammatik zu sein, da die Anpassung der Abbildungstabelle mit geringem Aufwand möglich ist. Die Abbildung wird mittels eines Perl-Programms implementiert.Abbildung des STTS-Tagsets auf die Kategorien der Stellingen-GrammatikDa der Stellingen-Korpus zu klein ist, um einen probabilistischen Tagger darauf zu trainieren, und es kein großes Korpus gibt, daß das dieselbe Menge an Kategoriesymbolen, sog. Tags, verwendet. Deshalb wurde der Tagger auf dem Negra-Korpus, das das sog. STTS-Tagset verwendet, dessen Tags dem Stellingen-Korpus sehr ähnlich sind, verwendet, um das Sprachmodell des Taggers zu trainieren. Damit das CDG-System die Symbole des Negra-Korpus verarbeiten kann, werden diese durch ein Programm, den sog. Mapper, auf das Stellingen-Korpus abgebildet. Die Abbildung des STTS-Tagsets auf die Stellingengrammatik bedeutet eine Verkleinerung der Tag-Menge, da STTS eine größere Zahl möglicher Tags als die Stellingen-Grammatik verwendet. Das liegt an der Tatsache, daß das STTS-Tagset für die deutsche Sprache im allgemeinen, die Stellingengrammatik jedoch nur für Terminabsprachedialoge konzipiert wurde, was bedeutet, daß STTS- in der Regel genauer ist (Ausnahme: Artikel, STTS unterscheidet im Gegensatz zur Stellingen-Grammatik nicht zwischen bestimmten und unbestimmten Artikeln).
Simulation eines perfekten Taggers durch Einführung zusätzlicher ConstraintsUm das Potential der Verwendung eines POS-Taggers für CDG abzuschätzen, wurde getestet, wie sich die für das Parsen benötigte Zeit entwickelt, wenn zusätzliche Constraints eingeführt werden, die, die in den Annotationen vorhandenen Kategorien, kodieren. Dies entspricht in etwa dem, was ein perfekter POS-Tagger, dh ein POS-Tagger, der keine Fehler macht, leistet. Darüber hinaus wurde untesucht, ob und wie stark sich die Scores unterscheiden. Ergebnisse:
ProzeßkommunikationDie Kommunikation zwischen Parser und Tagger wird durch ein einfaches Protokoll implementiert. Bei der Implementation wurde Wert darauf gelegt, dieses so einfach wie möglich zu halten. Mehr Informationen zum Protokoll, der Ein- und Ausgabesprache gibt es hier.mittlere Tag-Mehrdeutigkeit und Entropie der KorporaEntropie H, Maß für Informationsgehalt. Definiert die minimale Anzahl an Bits, die pro Wort notwendig sind, um die Tagsequenz des Korpus zu kodieren:P(t):Wahrscheinlichkeit eines jeden Tags im Trainingsset, dh: (Häufigkeit des Tags) / (Anzahl der Worte im Korpus) mittlere Tag-Mehrdeutigkeit A, Maß für die durchschnittliche Mehrdeutigkeit der Tags im Korpus (w_1...w_n) unter der (unzutreffenden) Annahme, daß ein vollständiges Lexikon existiert: Negra-Corpus: mittlere Mehrdeutigkeit: 1.734228 Entropie 4.070311 Stellingen: mittlere Mehrdeutigkeit: 1.228020 Entropie 3.763864 Diese Werte wurden wie folgt mit dem Perl-Programm entropie.pl berechnet (sieh Anhnag). commando: "cat ../Corpus/negra-corpus.cok | ./entropie.pl"
Experimente?
Offene Fragen:
Page Preferences
-- JochenHagenstroem - 09 Nov 2001 | |||||||||||||