Tagging

Ziel

  • Wörter des Eingabetexts markieren
    • Syntaktisch
      • Wortarten und
      • Flexion bestimmen
    • Semantisch
      • Erkennen von Eigennamen, Ortsnamen, Zeitangaben
      • Funktion einer Person im Satz
      • Koreferenzen müssen aufgelöst werden

Arbeitsweise

Überwacht vs. unüberwacht

  • Überwacht
    • Training mit vorher markierten Korpora
    • Darauf aufbauend: Entwickling von
      • Tagging-Wörterbuch
      • Wort-/Tag-Häufigkeiten
      • Wahrscheinlichkeiten für Tag-Abfolge
  • Unüberwacht
    • Automatisches Erkennen von Wortgruppen, hieraus Berechnen von
      • Wahrscheinlichkeitswerte für stochastische Tagger, oder
      • Kontextregeln für regelbasierte Systeme

Regelbasiert vs. stochastisch

  • Regelbasiertes Tagging
    • Wortart wird aus dem Kontext bestimmt
      • Wortfolge "det X n" --> X ist wohl ein Artikel ("the black cat")
      • Im Deutschen: Wort fängt mit Großbuchstabe an --> Wort ist Substantiv oder Eigenname
    • erforderte oft überwachtes Training, mittlerweile zunehmend auch automatische Regelentwicklung
  • Stochastisches Tagging
    • berücksichtigt irgendwie Häufigkeiten und Wahrscheinlichkeiten
      • einfachster Ansatz: Welche Wortarten sind am wahrscheinlichsten?
      • Tagfolge-Wahrscheinlichkeit mit n-gram-Analyse (Viterbi)
      • Kombination von Tagfolge- und Wortart-Wahrscheinlichkeit (Hidden Markov)

Vor- und Nachteile

  • Überwacht
    • Vorteil: höhere Genauigkeit
    • Nachteil: Erstellung eines getaggten Korpus i.d.R. teuer und langwierig
  • Unüberwacht
    • Vorteil: kein Korpus muss angeschafft/erstellt werden
    • Nachteil: Analyse u.U. nur sehr grobkörnig

Quellen

Warning: Can't find topic InfEx.WebLeftBarExample

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback