Maintaining Negra Known Errors

Description

Die Datei cdg/grammar/negra/known_errors enthält eine Liste aller bekannten Fehler, die unsere Grammatik auf Gold-Standard-Annotationen des NEGRA-Korpus meldet. Das sind zum einen tatsächliche sprachliche Fehler im Korpus, zum anderen Phänomene, die die Grammatik (noch) nicht richtig modellieren kann (vgl. deutsch/doc.dvi, `Verbleibende Probleme').

Man kann den Stand der Grammatikentwicklung daran messen, ob die Menge der Fehler auf diesem Referenzkorpus sich verändert. Zu diesem Zweck ruft man im Verzeichnis negra das Programm check-annotations.pl auf. Es erzeugt dann die Datei new_errors, die dann mit known_errors verglichen werden kann. (In emacs empfiehlt sich dafür die Funktion M-x diff-heise-errors oder diff-negra-errors).

Immer wenn sich new_errors und known_errors unterscheiden, muß eine der folgenden Möglichkeiten ergriffen werden:

(1) Ein Fehler in known_errors fehlt in new_errors, weil die Grammatik erweitert oder das Korpus selbst geändert wurde, so daß kein Fehler mehr auftritt. In diesem Fall muß der Fehler aus known_errors entfernt werden.

(2) Ein Fehler in new_errors fehlt in known_errors. In diesem Fall muß entschieden werden, ob der Fehler beim Korpus, in der Annotation oder beim Grammatikschreiber liegt.

(a) Wenn der Satz (bezüglich dieser speziellen Regel) sprachlich richtig ist und die Annotation auch die korrekte Struktur und Lexemauswahl vorschreibt, hat die Grammatik unrecht. In diesem Fall muß man prüfen, ob das Problem bereits bekannt ist.
(i) Wenn das Problem im Abschnitt `Verbleibende Probleme' genannt ist, ist es ein `bekannter' Fehler. Dann sollte der Fehler von new_errors nach known_errors übertragen werden.

(ii) Wenn das Problem dort nicht genannt ist, dann muß entweder die Grammatik oder der Abschnitt `Verbleibende Fehler' geändert werden. In diesem Fall bleiben beide Dateien unverändert, damit der Unterschied beim nächsten Test wieder auftritt und sich so als `nicht bearbeitet' bemerkbar macht.
(b) Wenn der Satz sprachlich korrekt ist, aber die Annotation eine falsche Struktur oder Lexemauswahl vorschreibt, muß die Annotation geändert werden. (Die Datei new_errors muß nicht geändert werden, da sie ja beim nächsten Test ohnehin überschrieben wird.)

Der Fehler in der Annotation kann auch dadurch entstehen, daß sie ein bestimmtes Feature gar nicht enthält. In diesem Fall muß es in die Annotation eingefügt werden.

(c) Wenn der Satz tatsächlich inkorrekt ist, dann hat die Grammatik recht, und wir haben einen weiteren Fehler im Korpus gefunden. In diesem Fall wird der Fehler von new_errors nach known_errors übertragen.

(d) Wenn der Satz richtig ist, aber falsch in Worte unterteilt wurde, liegt der Fehler beim Korpus, und das Korpus selbst sollte geändert werden.
(3) Derselbe Fehler taucht in beiden Dateien auf, ist aber leicht unterschiedlich formuliert. Das liegt meistens daran, daß Wort- oder Constraintbezeichner sich geändert haben. In diesem Fall wird die aktuellere Version aus new_errors nach known_errors übertragen.

Als Beispiele hier die einige typische Unterschiede zwischen known_errors und new_errors, jeweils mit Erklärung, wie sie zu behandeln sind.

5985a5986,6021
> Sentence gold-s1411
> 
> SYN: 83_CARD--ATTR-->030_CARD
> ATTR-Definition(0.000e+00): @034
> 
> SYN: Auskunft_nom--ROOT-->NIL
> Fragment(1.000e-02): @000
> 
> SYN: Bundesgesundheitsamt_nom--ROOT-->NIL
> Fragment(1.000e-02): @004
> 
> SYN: Berlin--ROOT-->NIL
> Fragment(1.000e-02): @020
> 
> SYN: Tel._nom--ROOT-->NIL
> Fragment(1.000e-02): @026
> 
> SYN: w-1000_CARD--DET-->Berlin
> DET-Numerus(1.000e-01): @018
> 
> Auskunft : Bundesgesundheitsamt , Postfach 33 00 13 , w-1000 Berlin 33 ,
 Tel. ( 030 ) 83 08 27 76 .

Erklärung: Postfachnummern, Telefonnummern und Adressen mit Postleitzahlen sind bislang nicht in unserem Syntaxmodell vorgesehen. Es liegt also Fall 2 a) vor. Es sollte also ein weiterer Eintrag unter `Bekannte Probleme' eingerichtet werden. (Dieses Problemfeld ist weiter untern als ein eigener Arbeitspunkt genannt.)

> 
> 
> 
> Sentence gold-s1412
> 
> SYN: Juni_dat--ROOT-->NIL
> Fragment(1.000e-02): @006
> 
> SYN: Symposium_nom--ROOT-->NIL
> Fragment(1.000e-02): @014
> 
> 19. bis 20. Juni 1992 : xxiv. Symposium der Gesellschaft zur Bekämpfung der 
Krebskrankheiten in Düsseldorf .
> 

Erklärung: die erste Satzhälfte ist tatsächlich fragmentarisch, also liegt Fall 2 c) vor.

> 
> 
6109a6296,6311
> Sentence gold-s1432
> 
> SYN: anstanden_third--RE-->jedesmal
> RE-Definition(0.000e+00): @010
> 
> SYN: abzustimmen--NEB-->kamen_first
> Transitivität(1.000e-01): @042
> 
> SYN: wenn--KONJ-->brauchte_third_past
> SYN: brauchte_third_past--ROOT-->NIL
> isolierter Nebensatz(1.000e-01): @014-@022
> 
> aber jedesmal , wenn Präsidentschaftswahlen anstanden , 
wenn uns das Land brauchte , trotzten wir den Gefahren und
 kamen , um abzustimmen . "
> 

Erklärung: die Konstruktion RE mit Nebensatz und Adverb ist zwar erlaubt, z.B. für `dann--wenn', aber das Paar `jedesmal-wenn' ist nicht vorgesehen. Es liegt also Fall 2a) vor, und die betreffende Liste mit Wortpaaren sollte erweiter werden.

> 
> 
6337a6540,6551
> Sentence gold-s1507
> 
> SYN: 45_CARD--ATTR-->0_CARD
> ATTR-Definition(0.000e+00): @028
> 
> SYN: 0_CARD--DET-->Milligramm_acc
> DET-Numerus(1.000e-01): @024
> 
> der Grenzwert für Staub beträgt nach einer Richtlinie 
des Vereins deutscher Ingenieure 0 , 45 Milligramm .
> 

Erklärung: Die Folge 0 , 45 kann nicht richtig geparst werden. Hier sollte das Korpus geändert werden, so daß aus den drei Worten das Wort 0,45 wird (Fall 2d)

> 
> 
6682a6897,6925
> Sentence gold-s1595
> 
> SYN: jemals--ADV-->offiziell
> SYN: offiziell--ADV-->habe_VAFIN_third
> ADV-Kategorie(0.000e+00): @032-@034
> 
> SYN: von--ROOT-->NIL
> Fragment(1.000e-02): @008
> 
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: habe_VAFIN_third--ROOT-->NIL
> isolierter Nebensatz(1.000e-01): @000-@024
> 
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: über_APPR_acc--PP-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@062
> 
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: hauptamtlich--ADV-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@042
> 
> SYN: ob_KOUS--KONJ-->habe_VAFIN_third
> SYN: offiziell--ADV-->habe_VAFIN_third
> Verbletztstellung(1.000e-01): @000-@034
> 
> ob er für die von Karl-Heinz Baum ( Berlin ) Stasi gearbeitet habe , 
entweder " jemals offiziell oder inoffiziell ,
 hauptamtlich oder sonstwie " oder " gelegentlich oder unentgeltlich , 
über mittelbare Kontakte , im Wege einer
 Verpflichtung als Reisekader " .
> 

Erklärung: Der Satz ist fragmentarisch, und die Grammatik erlaubt die hilfsweise Unterordnung jemals---->offiziell nicht. Also sollte sie in eine NIL-Unterordnung geändert werden (Fall 2b)

> 
> 
6775a7019,7033
> Sentence gold-s1612
> 
> SYN: ddr---ATTR-->Grenztruppen_gen
> ATTR-Definition(0.000e+00): @014
> 
> SYN: morgens--ADV-->Uhr_dat
> Zeitadverb-Unterordnung(1.000e-01): @006
> 
> SYN: ddr---ATTR-->Grenztruppen_gen
> TRUNC-Label(1.000e-01): @014
> 
> seit fünf Uhr morgens umkreuzten Schnellboote der ddr- Grenztruppen 
den Kahn der Hoffnung .
> 

Erklärung: aus ddr- Grenztruppen sollte ein Wort gemacht werden: DDR-Grenztruppen (Fall 2d)

> 
> 
7006a7309,7345
> Sentence gold-s1689
> 
> SYN: daß--KONJ-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @020-@032
> 
> SYN: er--SUBJ-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @022-@032
> 
> SYN: nach_APPR--PP-->hat
> SYN: sich_sg_acc--OBJA-->habilitieren_VVINF
> Projektivität6(0.000e+00): @024-@032
> 
> SYN: eher_ADV--ADV-->als_KOKOM
> SYN: als_KOKOM--KOM-->empfindet_VVFIN_sg
> ADV-Kategorie(0.000e+00): @006-@008
> 
> er empfindet es eher als einen Akt von Gerechtigkeit , 
daß er nach so langer Forschungsarbeit sich doch noch hat
 habilitieren können .
> 

Erklärung: die außergewöhnliche Wortstellung `hat habilitieren können' ist nicht in der Grammatik vorgesehen. Sie zu erlauben ist aufwendig, also sollte zunächst ein weiterer `bekannter Fehler' alloziert werden: `umgestellte Auxiliargruppen können nicht richtig verarbeitet werden'.

> 
> 
> Sentence gold-s1690
> 
> SYN: stasi---DET-->Offizier_nom
> DET-Definition(0.000e+00): @048
> 
> SYN: damals--ADV-->unbekannt
> Zeitadverb-Unterordnung(1.000e-01): @020
> 
> SYN: stasi---DET-->Offizier_nom
> TRUNC-Label(1.000e-01): @048
> 
> inzwischen wisse er auch , sagt er , was ihm damals unbekannt gewesen sei , 
daß nämlich einer seiner Gutachter "
 Oibe " - stasi- " Offizier im besonderen Einsatz " - war .
> 

Erklärung: Hier sollte der Begriff Stasi-"Offizier im besonderen Dienst" zu einem Wort zusammengefaßt werdn, obwohl er Leerzeichen und Anführungszeichen enthält.

> 
> 
7086a7426,7461
> Sentence gold-s1708
> 
> SYN: ums--PP-->ein_ART_acc
> PP-Definition(0.000e+00): @008
> 
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> zwei Determiner(0.000e+00): @006-@010
> 
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> doppeltes Komplement(0.000e+00): @006-@010
> 
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> Projektivität1(0.000e+00): @006-@012
> 
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> Determiner-Zone verletzt(0.000e+00): @006-@010
> 
> SYN: ein_ART_acc--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> APPRART mit Determiner(0.000e+00): @006-@012
> 
> SYN: andere_ADJA_sg_acc_neut--DET-->Mal_acc
> SYN: Mal_acc--PN-->ums
> APPRART mit Determiner(0.000e+00): @010-@012
> 
> SYN: geführt_VVPP--AUX-->haben_VAFIN_third_indicative
> Transitivität(1.000e-01): @026
> 
> diese Revolten haben ein ums andere Mal zu einer ethischen Konjunktur 
der Ästhetik geführt .
> 

Erklärung: die Wendung "ein ums andere Mal" ist ideosynkratisch und verletzt die normalen Kategorieregeln. Das ist Bekannter Fehler Nr. 12, also liegt Fall 2 a) vor.

Comments

 

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback