(by
KilianAFoth)
772 chunker errors in 2000 Annotationen.
Nach Auto-Korrektur noch 477 Fehler.
Aufschlüsselung
Chunk-Fehler
[NC englischsprachige/ADJA *Bücher/NN drei/CARD] [NC *Tage/NN] lang/APPO
Nicht behebbar. Allerdings können einige häufige Fehler des Chunkers
durch Constraint-Ausnahmen gehandhabt werden:
[NC *45/CARD]] [PC *bis/APPR [NC 82/CARD *US-Dollar/NE]
==> APPR<---PN---CARD erlauben
oder/KON [VC verkauft/VVPP worden/VAPP *seien/VAFIN]
==> KON<---CJ---Inhaltswort erlauben
als/KOKOM [NC 100/CARD *Pfund/NE]
==> KOKOM<---CJ---Inhaltswort erlauben
Viele Chunker-Fehler bleiben jedoch unkorrigiert.
unsinniger NC
[NC wer/PWS seine/PPOSAT Anteile/NN] verkauft:
PWS fälschlich in NC gezogen, obwohl es immer eine eigene NP bildet.
Lösung: der Wrapper bricht solche chunks an er betreffenden Stelle entzwei.
Tag-Fehler
[NC der/ART *Deutschen/NN Telekom/NE]
Fehler des Taggers führt zu chunk-Fehler. Nicht behebbar außer durch
einen besseren tagger.
Genitivattribute
[NC Intels Prozessor]:
Diese NP ist ausnahmsweise links-verzweigend.
Lösung: der Wrapper muß ausnahmsweise das rechte Nomen zum Kopf erklären.
[die sogenannten] " [hedge fonds]
[am 3] . [Februar]
" und . verwirren den chunker
Lösung: der Wrapper filtert sie raus.
Komma-Verwirrung
',', '-', '(' und ')' ist immer chunk-Grenze!
Lösung: der Wrapper bricht Chunks an der betreffenden Stelle entzwei.
unsinniger VC
[VC *schildern/VVFIN müsse/VMFIN]:
Zwei finite Verben können unmöglich einen Chunk bilden.
Lösung: Der Chunk wird in zwei geteilt, wenn mehrere finite Verben
erkannt werden.
CARD+CARD
[NC 622/CARD 000/CARD]:
CARD ist chunk head, wenn keine Nomen vorkommen.
Lösung: Chunks, die nur aus Zahlen bestehen, haben die erste Zahl als Kopf.
unsinniger PC
[NC eigenen/ADJA *Angaben/NN] [PC zufolge/APPO [NC ihren/PPOSAT *Domainnamen/NN]]:
Obwohl der Tagger korrekt eine Postposition erkennt hat, zieht der
Chunker sie zur folgenden NP. (Dies wird immer falsch gemacht.)
Lösung: der Wrapper löst die Postposition aus dem falschen PC.
ZEIT-Kante
[NC *Ende/NN September/NN]:
Fehlannotation: auch solche NP sollten rechtsverzweigend sein, sind aber
inkonsequent annotiert.
Lösung: Annotationen ändern.
Schreibfehler
[NC das/ART Jamba!/NE] [NC die/ART Startseite/NN] abgibt .
Hier liegt der Fehler schon in der Eingabe. Man könnte höchstens den
Quelltext ändern, was aber nicht automatisch geht -- alle Tippfehler
sind `schwere' Tippfehler, also solche, die nicht durch
Rechtschreibkorrektur erkennbar sind.
Related Topics: ChunkerExperiments,
EaclPaper2003,
TreeTagger
--
MichaelDaum - 05 Nov 2002