Add Wordgraph Autoloader
Description
Seit kurzem gibt es die Möglichkeit, Annotationen nicht in der
Grammatikdatei, sondern im Dateisystem abzulegen. Wenn der Benutzer
tippt `annotation s1', wird automatisch die Datei s1.cda geladen, in
der Hoffnung, daß sie genau diese Annotation enthält. Dieser
Mechanismus ist unerläßlich für den Umgang mit sehr großen Korpora
(das Laden von 100000 Annotationen belegt etwa 550MB an RAM). Er sollte
erweitert werden auf das automatische Laden von Wortgraphen.
Entsprechend zur Funktion
loadAnnotations()
soll also eine Funktion
loadLattices()
geschrieben werden, die Wortgraphen im Dateisystem
findet und liest. Es ist allerdings nicht sinnvoll, jeden Wortgraphen
einzeln abzulegen; stattdessen sollte angenommen werden, daß die
Wortgraphen 1 bis 10000 in einer Datei mit der Endung .1.lat liegen,
die nächsten in der Datei mit der Endung .2.lat etc.
Passend dazu soll der Tokenizer so verändert werden, daß er auf
Wunsch genau dieses Format erzeugt, d.h. mit der Option -s 10000
sollten aus den 260000 Heise-Sätzen 26 Dateien erzeugt werden statt
einer.
Fixed By
Myself.
Comments