Maintaining Negra Known Errors
Description
Die Datei cdg/grammar/negra/known_errors enthält eine Liste aller
bekannten Fehler, die unsere Grammatik auf Gold-Standard-Annotationen
des NEGRA-Korpus meldet. Das sind zum einen tatsächliche sprachliche
Fehler im Korpus, zum anderen Phänomene, die die Grammatik (noch)
nicht richtig modellieren kann (vgl. deutsch/doc.dvi, `Verbleibende
Probleme').
Man kann den Stand der Grammatikentwicklung daran messen, ob die Menge
der Fehler auf diesem Referenzkorpus sich verändert. Zu diesem Zweck
ruft man im Verzeichnis negra das Programm check-annotations.pl auf.
Es erzeugt dann die Datei new_errors, die dann mit known_errors
verglichen werden kann. (In emacs empfiehlt sich dafür die Funktion
M-x diff-heise-errors oder diff-negra-errors).
Immer wenn sich new_errors und known_errors unterscheiden, muß eine
der folgenden Möglichkeiten ergriffen werden:
(1) Ein Fehler in known_errors fehlt in new_errors, weil die Grammatik
erweitert oder das Korpus selbst geändert wurde, so daß kein Fehler
mehr auftritt. In diesem Fall muß der Fehler aus known_errors entfernt
werden.
(2) Ein Fehler in new_errors fehlt in known_errors. In diesem Fall muß
entschieden werden, ob der Fehler beim Korpus, in der Annotation oder beim
Grammatikschreiber liegt.
(a) Wenn der Satz (bezüglich dieser speziellen Regel) sprachlich
richtig ist und die Annotation auch die korrekte Struktur und
Lexemauswahl vorschreibt, hat die Grammatik unrecht. In diesem
Fall muß man prüfen, ob das Problem bereits bekannt ist.
(i) Wenn das Problem im Abschnitt `Verbleibende Probleme' genannt
ist, ist es ein `bekannter' Fehler. Dann sollte der Fehler von
new_errors nach known_errors übertragen werden.
(ii) Wenn das Problem dort nicht genannt ist, dann muß entweder
die Grammatik oder der Abschnitt `Verbleibende Fehler'
geändert werden. In diesem Fall bleiben beide Dateien
unverändert, damit der Unterschied beim nächsten Test wieder
auftritt und sich so als `nicht bearbeitet' bemerkbar macht.
(b) Wenn der Satz sprachlich korrekt ist, aber die Annotation eine
falsche Struktur oder Lexemauswahl vorschreibt, muß die Annotation
geändert werden. (Die Datei new_errors muß nicht geändert werden, da
sie ja beim nächsten Test ohnehin überschrieben wird.)
Der Fehler in der Annotation kann auch dadurch entstehen, daß sie
ein bestimmtes Feature gar nicht enthält. In diesem Fall muß es
in die Annotation eingefügt werden.
(c) Wenn der Satz tatsächlich inkorrekt ist, dann hat die Grammatik
recht, und wir haben einen weiteren Fehler im Korpus gefunden. In
diesem Fall wird der Fehler von new_errors nach known_errors
übertragen.
(d) Wenn der Satz richtig ist, aber falsch in Worte unterteilt wurde,
liegt der Fehler beim Korpus, und das Korpus selbst sollte
geändert werden.
(3) Derselbe Fehler taucht in beiden Dateien auf, ist aber leicht
unterschiedlich formuliert. Das liegt meistens daran, daß Wort-
oder Constraintbezeichner sich geändert haben. In diesem Fall wird
die aktuellere Version aus new_errors nach known_errors
übertragen.
Als Beispiele hier die einige typische Unterschiede zwischen
known_errors und new_errors, jeweils mit Erklärung, wie sie zu
behandeln sind.
5985a5986,6021
> Sentence gold-s1411
>
> SYN: 83_CARD--ATTR-->030_CARD
> ATTR-Definition(0.000e+00): @034
>
> SYN: Auskunft_nom--ROOT-->NIL
> Fragment(1.000e-02): @000
>
> SYN: Bundesgesundheitsamt_nom--ROOT-->NIL
> Fragment(1.000e-02): @004
>
> SYN: Berlin--ROOT-->NIL
> Fragment(1.000e-02): @020
>
> SYN: Tel._nom--ROOT-->NIL
> Fragment(1.000e-02): @026
>
> SYN: w-1000_CARD--DET-->Berlin
> DET-Numerus(1.000e-01): @018
>
> Auskunft : Bundesgesundheitsamt , Postfach 33 00 13 , w-1000 Berlin 33 ,
Tel. ( 030 ) 83 08 27 76 .
Erklärung: Postfachnummern, Telefonnummern und Adressen mit
Postleitzahlen sind bislang nicht in unserem Syntaxmodell vorgesehen.
Es liegt also Fall 2 a) vor. Es sollte also ein weiterer Eintrag unter
`Bekannte Probleme' eingerichtet werden. (Dieses Problemfeld ist weiter
untern als ein eigener Arbeitspunkt genannt.)
>
>
>
> Sentence gold-s1412
>
> SYN: Juni_dat--ROOT-->NIL
> Fragment(1.000e-02): @006
>
> SYN: Symposium_nom--ROOT-->NIL
> Fragment(1.000e-02): @014
>
> 19. bis 20. Juni 1992 : xxiv. Symposium der Gesellschaft zur Bekämpfung der
Krebskrankheiten in Düsseldorf .
>
Erklärung: die erste Satzhälfte ist tatsächlich fragmentarisch, also
liegt Fall 2 c) vor.
>
>
6109a6296,6311
> Sentence gold-s1432
>
> SYN: anstanden_third--RE-->jedesmal
> RE-Definition(0.000e+00): @010
>
> SYN: abzustimmen--NEB-->kamen_first
> Transitivität(1.000e-01): @042
>
> SYN: wenn--KONJ-->brauchte_third_past
> SYN: brauchte_third_past--ROOT-->NIL
> isolierter Nebensatz(1.000e-01): @014-@022
>
> aber jedesmal , wenn Präsidentschaftswahlen anstanden ,
wenn uns das Land brauchte , trotzten wir den Gefahren und
kamen , um abzustimmen . "
>
Erklärung: die Konstruktion RE mit Nebensatz und Adverb ist zwar
erlaubt, z.B. für `dann--wenn', aber das Paar `jedesmal-wenn' ist
nicht vorgesehen. Es liegt also Fall 2a) vor, und die betreffende
Liste mit Wortpaaren sollte erweiter werden.
>
>
6337a6540,6551
> Sentence gold-s1507
>
> SYN: 45_CARD--ATTR-->0_CARD
> ATTR-Definition(0.000e+00): @028
>
> SYN: 0_CARD--DET-->Milligramm_acc
> DET-Numerus(1.000e-01): @024
>
> der Grenzwert für Staub beträgt nach einer Richtlinie
des Vereins deutscher Ingenieure 0 , 45 Milligramm .
>
Erklärung: Die Folge 0 , 45 kann nicht richtig geparst werden. Hier sollte das
Korpus geändert werden, so daß aus den drei Worten das Wort 0,45 wird
(Fall 2d)
>
>
6682a6897,6925
> Sentence gold-s1595
>
> SYN: jemals--ADV-->offiziell
> SYN: offiziell--ADV-->habe_VAFIN_third
> ADV-Kategorie(0.000e+00): @032-@034
>
> SYN: von--ROOT-->NIL
> Fragment(1.000e-02): @008
>
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: habe_VAFIN_third--ROOT-->NIL
> isolierter Nebensatz(1.000e-01): @000-@024
>
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: über_APPR_acc--PP-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@062
>
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: hauptamtlich--ADV-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@042
>
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: offiziell--ADV-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@034
>
> ob er für die von Karl-Heinz Baum ( Berlin ) Stasi gearbeitet habe ,
entweder " jemals offiziell oder inoffiziell ,
hauptamtlich oder sonstwie " oder " gelegentlich oder unentgeltlich ,
über mittelbare Kontakte , im Wege einer
Verpflichtung als Reisekader " .
>
Erklärung: Der Satz ist fragmentarisch, und die Grammatik erlaubt die
hilfsweise Unterordnung jemals---->offiziell nicht. Also sollte sie in
eine NIL-Unterordnung geändert werden (Fall 2b)
>
>
6775a7019,7033
> Sentence gold-s1612
>
> SYN: ddr---ATTR-->Grenztruppen_gen
> ATTR-Definition(0.000e+00): @014
>
> SYN: morgens--ADV-->Uhr_dat
> Zeitadverb-Unterordnung(1.000e-01): @006
>
> SYN: ddr---ATTR-->Grenztruppen_gen
> TRUNC-Label(1.000e-01): @014
>
> seit fünf Uhr morgens umkreuzten Schnellboote der ddr- Grenztruppen
den Kahn der Hoffnung .
>
Erklärung: aus ddr- Grenztruppen sollte ein Wort gemacht werden:
DDR-Grenztruppen (Fall 2d)
>
>
7006a7309,7345
> Sentence gold-s1689
>
> SYN: daß--KONJ-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @020-@032
>
> SYN: er--SUBJ-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @022-@032
>
> SYN: nach_APPR--PP-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @024-@032
>
> SYN: eher_ADV--ADV-->als_KOKOM
> SYN: als_KOKOM--KOM-->empfindet_VVFIN_sg
> ADV-Kategorie(0.000e+00): @006-@008
>
> er empfindet es eher als einen Akt von Gerechtigkeit ,
daß er nach so langer Forschungsarbeit sich doch noch hat
habilitieren können .
>
Erklärung: die außergewöhnliche Wortstellung `hat habilitieren können'
ist nicht in der Grammatik vorgesehen. Sie zu erlauben ist aufwendig,
also sollte zunächst ein weiterer `bekannter Fehler' alloziert werden:
`umgestellte Auxiliargruppen können nicht richtig verarbeitet werden'.
>
>
> Sentence gold-s1690
>
> SYN: stasi---DET-->Offizier_nom
> DET-Definition(0.000e+00): @048
>
> SYN: damals--ADV-->unbekannt
> Zeitadverb-Unterordnung(1.000e-01): @020
>
> SYN: stasi---DET-->Offizier_nom
> TRUNC-Label(1.000e-01): @048
>
> inzwischen wisse er auch , sagt er , was ihm damals unbekannt gewesen sei ,
daß nämlich einer seiner Gutachter "
Oibe " - stasi- " Offizier im besonderen Einsatz " - war .
>
Erklärung: Hier sollte der Begriff Stasi-"Offizier im besonderen Dienst"
zu einem Wort zusammengefaßt werdn, obwohl er Leerzeichen und
Anführungszeichen enthält.
>
>
7086a7426,7461
> Sentence gold-s1708
>
> SYN: ums--PP-->ein_ART_acc
> PP-Definition(0.000e+00): @008
>
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> zwei Determiner(0.000e+00): @006-@010
>
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> doppeltes Komplement(0.000e+00): @006-@010
>
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> Projektivität1(0.000e+00): @006-@012
>
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> Determiner-Zone verletzt(0.000e+00): @006-@010
>
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> APPRART mit Determiner(0.000e+00): @006-@012
>
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> APPRART mit Determiner(0.000e+00): @010-@012
>
> SYN: geführt_VVPP--AUX-->haben_VAFIN_third_indicative
> Transitivität(1.000e-01): @026
>
> diese Revolten haben ein ums andere Mal zu einer ethischen Konjunktur
der Ästhetik geführt .
>
Erklärung: die Wendung "ein ums andere Mal" ist ideosynkratisch und
verletzt die normalen Kategorieregeln. Das ist Bekannter Fehler Nr.
12, also liegt Fall 2 a) vor.
Comments