unzutreffende Annahme der Existenz eines vollständigen Lexikons
Mittlere Tag-Mehrdeutigkeit ist ein Maß dafür, wieviele unterschiedliche Tags pro Wort durchschnittlich in Frage kommen.
Um dies zu berechnen, ist es erforderlich zu wissen, welche Tags für die einzelnen Worte zulässig sind. Dieses Wissen ist gleichbedeutend mit der Existenz eines vollständigen Lexikons. Da aber nicht für alle in der Sprache formulierbaren Aussagen bekannt sind, sondern nur der gegebene Korpus, ist diese Annahme idealisierend. Man geht also unzutreffenderweise davon aus, daß der Korpus alle Tagging-Variationen für jedes Wort der Sprache enthält.
Beispiel:
Nun, wenn Dein Korpus
a b b c
ist und Dein Lexion so ausssieht:
a NN NE
b ADJ
c VVINF VVFIN
dann hast Du eine mittlere Tag-Mehrdeutigkeit von
A=(2 + 1 + 1 + 2)/4=1.5
Wenn Du aber kein Lexikoneintrag f"ur -- sagen wir -- b hast, dann
mu"st Du wohl annehmen, alle 55 Tags sind f"ur b m"oglich. Ergo:
A=(2 + 55 + 55 + 2)/4=28.5
Da ich das aber nicht will, habe ich einfach ein vollst"andiges Lexikon
angenommen, welches aber unter realistischen Bedingungen unrealistisch
ist.
Page Preferences
--
JochenHagenstroem - 11 Jan 2002