Evaluationskriterien
Um die Qualität eines Resultats eines Experiments einzuschätzen, wird das Resultat G, z.b. ein mit POS--Tags annotierter Text, mit einer Referenz R verglichen, z.b. ein von Hand annotiereter Text.
Hierbei werden grundsätzlich zwei Ansätze unterschieden: precision \&
recall und accuracy und ambiguity.
- I sei die Menge der Probleminstanzen, z.b. die Worte des zu bearbeitenden Texts
- S sei die Lösungsmenge der Probleminstanzen, z.b. die Menge der POS--Tags
- O=I x S sei die Menge aller möglichen Resultate, also das Kreuzprodukt aus I und S
- G sei die zu evaluierendde Lösung
- R sei der Referenztext
Um Ergebnisse von Experimenten zu vergleichen werden zwei unterschiedliche Kriterien verwendet:
- accuracy bzw precision p= | G geschnitten R| / | G| bezeichenet die Korrektheit eines Resultats . Hier wird die Anzahl der richtigen Ergebnisse ins Verhältnis zur Anzahl der Ergebnisse insgesamt (also auch der falschen) gestellt. Es ist immer möglich eine maximale precision von 1 zu erzielen, in dem |G| =0 gesetzt wird.
- recall r=| G geschnitten R| / | R| bezeichenet die Vollständigkeit eines Resultats. Ein maximaler recall von 1 ist leicht zu erreichen, in dem allen i element I alle s element S zugeordnet werden, dh in dem als Lösung die Menge aller möglichen Lösungen ausgegeben wird, also G=O gesetzt wird.
Da ein sich gutes Resultat immer durch sowohl eine gute precision als auch durch einen guten recall--Wert auszeichnet, wird als drittes Kriterium eine Kombination aus beiden genannten Bewertungen verwendet, das f-Maß:
f=2/(1/r + 1/p)
Im Zusammenhang mit Part-Of-Speech-Taggern, wird meistens accuracy und
ambiguity als Kriterium verwendet. Accuracy in diesem Zusammenhang
wird dann wie recall oben definiert, also
\begin{enumerate}
- accuracy a=| G geschnitten R| / | R| bezeichenet dann die Vollst"andigkeit eines Resultats.}
- ambiguity $a=|G| / |R|
\end{enumerate}
kurz:
precision: p = good/(good+bad),
Recall: r = good/(| groesse des Testsets |)
mittlere Tag-Mehrdeutigkeit und Entropie der Korpora
Entropie H, Maß für Informationsgehalt. Definiert die minimale Anzahl an Bits, die pro Wort notwendig sind, um die Tagsequenz des Korpus zu kodieren:
P(t):Wahrscheinlichkeit eines jeden Tags im Trainingsset, dh: (Häufigkeit des Tags) / (Anzahl der Worte im Korpus)
mittlere Tag-Mehrdeutigkeit A, Maß für die durchschnittliche Mehrdeutigkeit der Tags im Korpus (w_1...w_n) unter der (
unzutreffenden) Annahme, daß ein vollständiges Lexikon existiert:
Page Preferences
--
JochenHagenstroem - 25 Feb 2002