Einheitliche Lexikon Generierung
Description
Derzeit werden mit vier verschiedenen Tools Adjektive, Nomen, Namen
und Verben aus einer selbsterfundenen Eingabesprache in das
CDG-Lexikonformat ungewandelt. Der Vorteil ist, daß bei Einfügung
eines neuen Nomens nur Nomen.cdg neu erzeugt werden muß; Namen.cdg,
Adjektive.cdg und Verben.cdg können unverändert bleiben. Der Nachteil
ist zum einen, daß auf diese Weise der gesamte Speicherplatz des
Lexikons zweimal verbraucht wird. Zweitens ist viel Code viermal
vorhanden, was immer schlecht ist (z.B. die Implementation der Option
-c).
Schließlich gibt es aber auch noch inhaltliche Beziehungen zwischen den
Wortklassen, die bei einzelner Erzeugung nicht richtig erkannt werden
können:
- Alle Worte benutzen dieselbe Hierarchie von möglichen Valenztypen. Diese wird von make-verbs.pl erzeugt und in AVZ.cdg geschrieben. Nun gibt es aber Valenztypen, die nur bei einzelnen Nomen oder Adjektiven auftreten, nicht bei einem Verb. Dies müssen einzeln in make-verbs.pl eingetragen werden, weil das Skript sie nicht in seinem eigenen Input findet. Das ist sehr fehleranfällig.
- Verben bilden Verbaladjektive, die eigentlich durch make-adjectives.pl erzeugt werden sollten. Tatsächlich werden sie aber aushilfsweise von make-verbs.pl selbst produziert. Auch hier kommt es oft zu Kollisionen, wenn z.B. `spannend' sowohl implizit durch `verb spannen' als auch durch `adj spannend' erzeugt wird, weil keines der beiden Skripte die Kollision sehen kann.
- Verben bilden auch substantivierte Infinitive, die durch make-nouns.pl erzeugt werden sollten. Derzeit enthält Nomen.txt eine eigens erzeigte Liste von Substantivierungen. Diese sollten stattdessen automatisch aus der `verb'-Deklaration erzeugt werden.
Die vielen Skripte sollen daher in ein make-lexicon.pl konsolidiert
werden, das exakt dasselbe tut wie bisher, aber ohne doppelte
Programmteile.
Comments