UHH
>
Informatik
>
NatS
>
InfEx Web
>
TaggingGrundlagen
(17 Oct 2012, UnknownUser)
P
rint version
Tagging
Ziel
Wörter des Eingabetexts markieren
Syntaktisch
Wortarten und
Flexion bestimmen
Semantisch
Erkennen von Eigennamen, Ortsnamen, Zeitangaben
Funktion einer Person im Satz
Koreferenzen müssen aufgelöst werden
Arbeitsweise
Überwacht vs. unüberwacht
Überwacht
Training mit vorher markierten Korpora
Darauf aufbauend: Entwickling von
Tagging-Wörterbuch
Wort-/Tag-Häufigkeiten
Wahrscheinlichkeiten für Tag-Abfolge
Unüberwacht
Automatisches Erkennen von Wortgruppen, hieraus Berechnen von
Wahrscheinlichkeitswerte für stochastische Tagger, oder
Kontextregeln für regelbasierte Systeme
Regelbasiert vs. stochastisch
Regelbasiertes Tagging
Wortart wird aus dem Kontext bestimmt
Wortfolge
"det X n"
-->
X
ist wohl ein Artikel ("the black cat")
Im Deutschen: Wort fängt mit Großbuchstabe an --> Wort ist Substantiv oder Eigenname
erforderte oft überwachtes Training, mittlerweile zunehmend auch automatische Regelentwicklung
Stochastisches Tagging
berücksichtigt irgendwie Häufigkeiten und Wahrscheinlichkeiten
einfachster Ansatz: Welche Wortarten sind am wahrscheinlichsten?
Tagfolge-Wahrscheinlichkeit mit n-gram-Analyse (Viterbi)
Kombination von Tagfolge- und Wortart-Wahrscheinlichkeit (Hidden Markov)
Vor- und Nachteile
Überwacht
Vorteil: höhere Genauigkeit
Nachteil: Erstellung eines getaggten Korpus i.d.R. teuer und langwierig
Unüberwacht
Vorteil: kein Korpus muss angeschafft/erstellt werden
Nachteil: Analyse u.U. nur sehr grobkörnig
Quellen
Automated Part of Speech Tagging: A Brief Overview
Folien zu 18.227 Vorlesung Semantische Sprachverarbeitung
(dort insb. Folie 5)
InfEx
Warning: Can't find topic InfEx.WebLeftBarExample
Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki?
Send feedback