Ingo hat mit Wordgraphen experimentiert: WGs eingesprochen und ins CDG gefüttert
Verwendung akustischer Scores
nur WGs verwendet, die die beste Kette zumindest enthalten, alternativ: nur beste Kette parsen
beste Ketten werden selten durch Grammatik gefunden, ab und zu vom Netsearch
Probleme nicht in Grammatik modelliert: Unterscheidung zwischen 'dir' und 'die'
Disambiguitäten der Spracherkennung werden grammatisch nicht unbedingt aufgelöst
Ideen: weitere Präferenzen ins Lexikon einpflegen
Ingo: die bestehende Grammatik zu erweitern bzw. auf ein neues Experiment zu trimmen bedeutet doch erheblichen Aufwand
Wolfgang: Verwendung des Experimentes in Ingos Dis und in Zwischenberichten unterscheiden
Ergebnise:
bisher nur begrenzter Erfolg, jedoch erstaunlich, dass überhaupt etwas herauskommt
gute Eignung es Frobbings zum Parsen auch grösserer WGs
weitere Aktivitäten:
Speech in Grammatik weiter modellieren
Wort-Akkuratheit messen
Heise Korpus
Kilian: 5-6 Texte mit verschiedenen Formen von "erwerben" durchforstet
Beispiele:
Es ist nicht illegal, ein Monopol zu erwerben.
Vodafone wird von Swisscom Mobile 25% der Anteile für 4,5 Milliarden SF erwerben
Eine Sperrminorität von 25,01 Prozent bei Libros E-Commerce-Portal und Free-Mail-Anbieter Lion.cc und 10 Prozent der Anteile von Libro selbst zu erwerben.
WAZ erwirbt Anteile vom Eigentümerkonsortium.
Kunde erwirbt vollständiges E-Book für $5.
Interessenten erwerben den Abschluss "Master of Science"
Japanischer Konzern erwirbt 15% an niederländischen Unternehmebn für 5 Milliarden Euro.
Niederländer erwirt den deutschen Mobilfunkanbieter E-Plus
Unternehmen erwirbt "kleine Lizenz"
zwar vielfältige aber doch recht heisetypische Verwendung von "erweben"
Kilian: eine Eigennamenserkennung wird benötigt, bevor Besitzverhältnisse erkannt werden können
Evaluations-Mass
Kilian arbeitet an einem Ersatz für parsecompare
in einem Gespräch zwischen Kilian, Ingo und Micha ist zwar eine gewünschte Spezifikation ausgearbeitet worden, allerdings aus Zeitgründen noch nicht umgesetzt
Probleme: Behandlung der Mehrdeutigkeiten in Refferenz-Annotation und Test
Ingo: warum nicht alle Kanten zusammenschmeissen
erst Levenstein Distanz der Wortketten
dann alle Kanten eindamfen: doppelte löschen
Frage: unaufgelöste lexikalische Mehrdeutigkeiten wieder ausmultiplizieren?
Initialer Zustand transformativer Verfahren
Micha: bringt es was, Frobbing und GLS von einem Zustand zu starten, der nur aus Root-Bindungen besteht? Die Hoffnung besteht darin, dass so zu Beginn weniger binäre Verletzungen auftreten, denn die Bindungen interagieren so weniger.
Kilian: für Frobbing bringt das nichts. Erklärung?
Micha: gleiches Bild bei GLS, Experimente jedoch nicht abgeschlossen, Grund: Evaluations-Mass im Umbruch, Fehler im Lexikon
Micha bittet darum, doch bei solchen Änderungen wie Evaluations-Mass oder Lexikon gründlicher zu testen. Falls Änderungen auftreten, so ist das zu dokumentieren.
Micha: in Zukunft regelmässige Regressionstests mit Yada
Ingo: Dietmas Lexikon führte leider nicht zu einem aufgeräumteren Zustand
Kilian: kein Verb-Übermakro, das alle Formen automatisch generiert, was evtl. auch garnicht möglich ist
Ingo: momentan wird m4 für die Lexikon-Expansion verwendet. Möglicherweise ist da eine andere Markosprache / eine andere Herangehensweise besser
Misc
Terminänderung: Statusmeetings jetzt statt 13Uhr Donnerstag um 14Uhr