Methoden und Grundlagen der Named Entity Recognition
- Hier ein schneller Überblick über Information Extraction und Named Entity (NE) Recognition.
Grundlagen
Unter Named Entity Recognition versteht man das Erkennen von Eigennamen von Personen, Firmen und Orten in Texten. Dazu versucht das System jedem Wort eines Satzes eine Markierung (Tag) anzuhaften, welches seine Rolle im Satz repräsentiert (zb Ort, Person, Verb, etc)
Für das Tagging liefert ein einfacher Mustervergleich mit bestehenden Datenbanken keine befriedigenden Resultate, da im hohen Maße Zweideutigkeiten existieren: "Das Weisse Haus" einmal als Gebäude, einmal als Institution. Deswegen sind andere Methoden notwending, um die gewünschten Informationen zuverlässig zu finden.
Methoden
Dictionary Lookup
Der Vergleich von Wörtern mit Wörterbucheinträgen zur Erkennung von NEs ist als einer der ersten Schritte in allen NER-Systemen implementiert.
Maximum Entropy Model
Neurale Netzwerke
Neurale Netze sind eine gute Methode, um ohne grosse Dokumentenbasis, gute Ergebnisse zu erzielen. Weiterhin kann die Effektivität noch gesteigert werden, wenn das Netzwerk für spezielle NE-Bereiche trainiert wird.
Hidden Markov Model
HMM als statistische Methode ist effektivste, um NEs zu erkennen, benötigt aber einen grosse Dokumentenbasis. Mehr zu HMM unter der Rubrik "Basistechnologien"
Decision Tree Model
Rule-based Systems
Pattern Selection
Stacking Methods
Hybrid-Systeme
Hybrid-Systeme vereinigen mehrere der oben genannten Methoden, um die Effizienz zu steigern.
Papers