Add Wordgraph Autoloader

Description

Seit kurzem gibt es die Möglichkeit, Annotationen nicht in der Grammatikdatei, sondern im Dateisystem abzulegen. Wenn der Benutzer tippt `annotation s1', wird automatisch die Datei s1.cda geladen, in der Hoffnung, daß sie genau diese Annotation enthält. Dieser Mechanismus ist unerläßlich für den Umgang mit sehr großen Korpora (das Laden von 100000 Annotationen belegt etwa 550MB an RAM). Er sollte erweitert werden auf das automatische Laden von Wortgraphen.

Entsprechend zur Funktion loadAnnotations() soll also eine Funktion loadLattices() geschrieben werden, die Wortgraphen im Dateisystem findet und liest. Es ist allerdings nicht sinnvoll, jeden Wortgraphen einzeln abzulegen; stattdessen sollte angenommen werden, daß die Wortgraphen 1 bis 10000 in einer Datei mit der Endung .1.lat liegen, die nächsten in der Datei mit der Endung .2.lat etc.

Passend dazu soll der Tokenizer so verändert werden, daß er auf Wunsch genau dieses Format erzeugt, d.h. mit der Option -s 10000 sollten aus den 260000 Heise-Sätzen 26 Dateien erzeugt werden statt einer.

Fixed By

Myself.

Comments

 

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback