unzutreffende Annahme der Existenz eines vollständigen Lexikons


Mittlere Tag-Mehrdeutigkeit ist ein Maß dafür, wieviele unterschiedliche Tags pro Wort durchschnittlich in Frage kommen.

Um dies zu berechnen, ist es erforderlich zu wissen, welche Tags für die einzelnen Worte zulässig sind. Dieses Wissen ist gleichbedeutend mit der Existenz eines vollständigen Lexikons. Da aber nicht für alle in der Sprache formulierbaren Aussagen bekannt sind, sondern nur der gegebene Korpus, ist diese Annahme idealisierend. Man geht also unzutreffenderweise davon aus, daß der Korpus alle Tagging-Variationen für jedes Wort der Sprache enthält.

Beispiel: Nun, wenn Dein Korpus

a b b c

ist und Dein Lexion so ausssieht:

a NN NE b ADJ c VVINF VVFIN

dann hast Du eine mittlere Tag-Mehrdeutigkeit von

A=(2 + 1 + 1 + 2)/4=1.5

Wenn Du aber kein Lexikoneintrag f"ur -- sagen wir -- b hast, dann mu"st Du wohl annehmen, alle 55 Tags sind f"ur b m"oglich. Ergo:

A=(2 + 55 + 55 + 2)/4=28.5

Da ich das aber nicht will, habe ich einfach ein vollst"andiges Lexikon angenommen, welches aber unter realistischen Bedingungen unrealistisch ist.

Page Preferences

-- JochenHagenstroem - 11 Jan 2002
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback