Evaluationskriterien




Um die Qualität eines Resultats eines Experiments einzuschätzen, wird das Resultat G, z.b. ein mit POS--Tags annotierter Text, mit einer Referenz R verglichen, z.b. ein von Hand annotiereter Text. Hierbei werden grundsätzlich zwei Ansätze unterschieden: precision \& recall und accuracy und ambiguity.

  • I sei die Menge der Probleminstanzen, z.b. die Worte des zu bearbeitenden Texts
  • S sei die Lösungsmenge der Probleminstanzen, z.b. die Menge der POS--Tags
  • O=I x S sei die Menge aller möglichen Resultate, also das Kreuzprodukt aus I und S
  • G sei die zu evaluierendde Lösung
  • R sei der Referenztext

Um Ergebnisse von Experimenten zu vergleichen werden zwei unterschiedliche Kriterien verwendet:

  • accuracy bzw precision p= | G geschnitten R| / | G| bezeichenet die Korrektheit eines Resultats . Hier wird die Anzahl der richtigen Ergebnisse ins Verhältnis zur Anzahl der Ergebnisse insgesamt (also auch der falschen) gestellt. Es ist immer möglich eine maximale precision von 1 zu erzielen, in dem |G| =0 gesetzt wird.
  • recall r=| G geschnitten R| / | R| bezeichenet die Vollständigkeit eines Resultats. Ein maximaler recall von 1 ist leicht zu erreichen, in dem allen i element I alle s element S zugeordnet werden, dh in dem als Lösung die Menge aller möglichen Lösungen ausgegeben wird, also G=O gesetzt wird.

Da ein sich gutes Resultat immer durch sowohl eine gute precision als auch durch einen guten recall--Wert auszeichnet, wird als drittes Kriterium eine Kombination aus beiden genannten Bewertungen verwendet, das f-Maß: f=2/(1/r + 1/p)

Im Zusammenhang mit Part-Of-Speech-Taggern, wird meistens accuracy und ambiguity als Kriterium verwendet. Accuracy in diesem Zusammenhang wird dann wie recall oben definiert, also \begin{enumerate}
  • accuracy a=| G geschnitten R| / | R| bezeichenet dann die Vollst"andigkeit eines Resultats.}
  • ambiguity $a=|G| / |R|
\end{enumerate} kurz:
precision: p = good/(good+bad), Recall: r = good/(| groesse des Testsets |)

mittlere Tag-Mehrdeutigkeit und Entropie der Korpora

Entropie H, Maß für Informationsgehalt. Definiert die minimale Anzahl an Bits, die pro Wort notwendig sind, um die Tagsequenz des Korpus zu kodieren:
entropie-formel.gif
P(t):Wahrscheinlichkeit eines jeden Tags im Trainingsset, dh: (Häufigkeit des Tags) / (Anzahl der Worte im Korpus)

mittlere Tag-Mehrdeutigkeit A, Maß für die durchschnittliche Mehrdeutigkeit der Tags im Korpus (w_1...w_n) unter der (unzutreffenden) Annahme, daß ein vollständiges Lexikon existiert:
mittlereMehrdeutigkeit.gif

Page Preferences

-- JochenHagenstroem - 25 Feb 2002
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback