TreeTagger Chunker Report

(by KilianAFoth)

772 chunker errors in 2000 Annotationen. Nach Auto-Korrektur noch 477 Fehler.

Aufschlüsselung

Anzahl Name Quelle behebbar
306 Chunker-Fehler TreeTagger nein
166 unsinniger NC TreeTagger ja
146 Tag-Fehler tnt nein
59 Genitivattribute wrapper ja
48 Qute-Verwirrung TreeTagger ja
20 Komma-Verwirrung TreeTagger ja
8 unsinniger VC TreeTagger ja
7 CARD+CARD wrapper ja
4 unsinniger PC TreeTagger ja
4 ZEIT-Kante Grammatik ja
4 Schreibfehler Quelltext nein

Chunk-Fehler

[NC englischsprachige/ADJA *Bücher/NN drei/CARD] [NC *Tage/NN] lang/APPO

Nicht behebbar. Allerdings können einige häufige Fehler des Chunkers durch Constraint-Ausnahmen gehandhabt werden:

[NC *45/CARD]] [PC *bis/APPR [NC 82/CARD *US-Dollar/NE]

==> APPR<---PN---CARD erlauben

oder/KON [VC verkauft/VVPP worden/VAPP *seien/VAFIN]

==> KON<---CJ---Inhaltswort erlauben

als/KOKOM [NC 100/CARD *Pfund/NE]

==> KOKOM<---CJ---Inhaltswort erlauben

Viele Chunker-Fehler bleiben jedoch unkorrigiert.

unsinniger NC

[NC wer/PWS seine/PPOSAT Anteile/NN] verkauft:

PWS fälschlich in NC gezogen, obwohl es immer eine eigene NP bildet.

Lösung: der Wrapper bricht solche chunks an er betreffenden Stelle entzwei.

Tag-Fehler

[NC der/ART *Deutschen/NN Telekom/NE]

Fehler des Taggers führt zu chunk-Fehler. Nicht behebbar außer durch einen besseren tagger.

Genitivattribute

[NC Intels Prozessor]:

Diese NP ist ausnahmsweise links-verzweigend.

Lösung: der Wrapper muß ausnahmsweise das rechte Nomen zum Kopf erklären.

DoubleQuote-Verwirrung

[die sogenannten] " [hedge fonds] [am 3] . [Februar]

" und . verwirren den chunker

Lösung: der Wrapper filtert sie raus.

Komma-Verwirrung

',', '-', '(' und ')' ist immer chunk-Grenze!

Lösung: der Wrapper bricht Chunks an der betreffenden Stelle entzwei.

unsinniger VC

[VC *schildern/VVFIN müsse/VMFIN]:

Zwei finite Verben können unmöglich einen Chunk bilden.

Lösung: Der Chunk wird in zwei geteilt, wenn mehrere finite Verben erkannt werden.

CARD+CARD

[NC 622/CARD 000/CARD]:

CARD ist chunk head, wenn keine Nomen vorkommen.

Lösung: Chunks, die nur aus Zahlen bestehen, haben die erste Zahl als Kopf.

unsinniger PC

[NC eigenen/ADJA *Angaben/NN] [PC zufolge/APPO [NC ihren/PPOSAT *Domainnamen/NN]]:

Obwohl der Tagger korrekt eine Postposition erkennt hat, zieht der Chunker sie zur folgenden NP. (Dies wird immer falsch gemacht.)

Lösung: der Wrapper löst die Postposition aus dem falschen PC.

ZEIT-Kante

[NC *Ende/NN September/NN]:

Fehlannotation: auch solche NP sollten rechtsverzweigend sein, sind aber inkonsequent annotiert.

Lösung: Annotationen ändern.

Schreibfehler

[NC das/ART Jamba!/NE] [NC die/ART Startseite/NN] abgibt .

Hier liegt der Fehler schon in der Eingabe. Man könnte höchstens den Quelltext ändern, was aber nicht automatisch geht -- alle Tippfehler sind `schwere' Tippfehler, also solche, die nicht durch Rechtschreibkorrektur erkennbar sind.

Related Topics: ChunkerExperiments, EaclPaper2003, TreeTagger

-- MichaelDaum - 05 Nov 2002
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback