Tagging Accuracy


Definition von accuracy, recall, f-measure
Details zum Mapping gibt es hier. Alle Skripte, Abbildungen(maps) und Sprachmodelle sind im Anhang dieser Seite zu finden.

ACHTUNG! Das dieser Seite angefügte Skript statistics.pl war fehlerhaft. Beim Singletagging müssen accuracy und recall gleich sein. Es handelt sich um den Klassiker unter den Fehlern: off by one. Der für recall verwendete Wert fuer Corpusgröße ist um 1 zu klein! Das Skript wurde nachträglich geändert. Deswegen können und sollen die hier genannten Resultate nicht exakt reproduziert werden.

Experimente mit Singletagging

tnt mit negra.tnt (mitgeliefert mit tnt) auf nf-n-200
good 1574, bad 269, guesses 1843, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 85.404232
recall : 85.450597
f-measure : 85.427408

command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -l /data/linux/opt/tnt/models/negra.tnt -m ~/cdg/utils/stts_stellingen_map | Tagger/Tools/statistics.pl

tnt mit negra-copus (selbst trainiert) auf nf-n200
good 1555, bad 288, guesses 1843, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 84.373304
recall : 84.419110
f-measure : 84.396201

command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -z -100 -l /home/jochen/Tagger/TnT22linux/tnt/models/negra-corpus -m ~/cdg/utils/stts_stellingen_map | Tagger/Tools/statistics.pl

tnt mit negra-corpus (vor dem training auf stellingen tags gemapped) auf nf-n-200.

Beim Durchführen des Experiments wurde eine weitere Abbildung (stellingen_map, siehe Anhang) verwendet, da Sonderworte aus dem stellingencorpus (DATUM, ZEIT) im Trainingscorpus (negra-corpus) nicht vorkommen, und daher falsch, bzw. anders als in der Stellingenannotation getagt werden.

good 1554, bad 289, guesses 1843, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 84.319045
recall : 84.364821
f-measure : 84.341927

command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -z -100 -l /home/jochen/Tagger/TnT22linux/tnt/models/negra-corpus.stellingen -m ~/cdg/utils/stellingen_map | Tagger/Tools/statistics.pl

Experimente mit Multitagging

tnt mit negra.tnt (mitgeliefert mit tnt) auf nf-n-200
good 1792, bad 1265, guesses 3057, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 58.619562
recall : 97.285559
f-measure : 73.157787
command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -z 1000 -l /data/linux/opt/tnt/models/negra.tnt -m ~/cdg/utils/stts_stellingen_map | Tagger/Tools/statistics.pl

tnt mit negra-copus (selbst trainiert) auf nf-n200
good 1785, bad 1437, guesses 3222, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 55.400372
recall : 96.905537
f-measure : 70.497630
command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -z 1000 -l /home/jochen/Tagger/TnT22linux/tnt/models/negra-corpus -m ~/cdg/utils/stts_stellingen_map | Tagger/Tools/statistics.pl

tnt mit negra-corpus (vor dem training auf stellingen tags gemapped) auf nf-n-200

Beim Durchführen des Experiments wurde eine weitere Abbildung (stellingen_map, siehe Anhang) verwendet, da Sonderworte aus dem stellingencorpus (DATUM, ZEIT) im Trainingscorpus (negra-corpus) nicht vorkommen, und daher falsch, bzw. anders als in der Stellingenannotation getagt werden.

good 1782, bad 1405, guesses 3187, words 1843, words in anno 1843 lines 2066, lines in anno 2066
accuracy : 55.914653
recall : 96.742671
f-measure : 70.868960
command:
cat Tagger/Corpus/nf-n-200.annotation.tt | ~/cdg/utils/mapper.pl -z 1000 -l /home/jochen/Tagger/TnT22linux/tnt/models/negra-corpus.stellingen -m ~/cdg/utils/stellingen_map | Tagger/Tools/statistics.pl

Page Preferences

-- JochenHagenstroem - 25 Feb 2002
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback