StartUpMeeting in Denmark

Table of Contents

Variable Verarbeitungstiefe

  • aus dem Verfahren heraus oder
  • extern gesteuert?

Unbekannte Wortformen

  • Wie können unbekannte Wortformen verarbeitet werden?
    • unterspezifiziert -> macht mehr Arbeit
    • ignorieren -> macht weniger Arbeit

Informationssuche vs. Fragebeantwortung

  • Informationssuche kann auch als Beantwortung einer sehr allgemeinen Fragestellung verstanden werden Wer fusioniert mit wem?
  • Vergleich mit anderen Verfahren

Anwendungsbereiche

  • relevanzgesteuertes Parsing z.B. Wirtschaftsnachrichten, merger etc.

Reading comprehension test

  • Schwerpunkt: Informationsanreicherung durch zyklische Analyse

Named Entities

  • partielle Strukturen, unbekannte Wörter sind eigene Kategorie im WB
  • Entscheidung fällt durch Disambiguierung (Vergabe derLabel)
  • Probleme:
    • Komplexität: unbekannte Wörter müssen mit allen anderen verknüpft werden
    • jedes unbekannte Wort kann Namenkategorie oder sonstiges sein
    • jedes bekannte Wort kann auch Eigenname sein

Auswahlkriterien

  • Vergleichbarkeit waere gut
  • Interessante Phänomene muessen drin sein
  • Verfügbarkeit der Daten
  • angereicherte Daten (Tags, PS-Bäume)
  • sprachlich nicht zu einfach und nicht zu kompliziert
  • Außenwirkung (Seriosität)

Beispiele

  • Wirtschaftsnachrichten (WSJ, yahoo, vwd)
    • Personalia
    • Übernahmen
    • Geschäftsaufgabe
    • Anteile, Tochter verkaufen / Verkauf gescheitert
    • Verkauf geplant
    • Werksschließungen / Stellenstreichungen
    • Finanzierungsschwierigkeiten
  • Heise-Ticker
    • Produktbeschreibungen
    • Rundfunknachrichten (D-Funk), Nachrichtenkanäle (Yahoo), Nachrichtenagenturen (Reuters)
    • Staatsbesuche
    • Katastrophen
  • Gerichtsberichte
  • Zeitschriften
    • Negra/Tiger: Tags,Trees
    • Verbmobil
    • Lesetest: Status?
  • Sportmeldungen (yahoo)
    • Siege
    • Spieler-/Trainerwechsel
    • Verletzungen, Unfälle
    • Mannschaftsaufstellungen
    • Wettkampftermine
    • Bewertungen (Chancen, überraschende Ergebnisse)
    • Ranglistenplätze
    • Besucherzahlen
    • Rekorde
    • Auslosungen, Gruppenzusammenstellung

Weiterentwicklung der Verfahren

  • GLS: warum ist es manchmal so langsam bei einfachen Problemen?
  • Robustheit gegen Variationen bei der Parametersetzung Wortgraphen
  • inkrementell arbeitendes GLS
  • ist unterspezifizierte Anbindung (nonspec) mit partiellem Parsing verträglich?
  • Ergänzung um eine semantischen Verarbeitungskomponente
  • Slot-Filling incl. zeitlicher Bezüge?

Unterspezifikation

  • Ellipsenbehandlung in kontrolliertem Rahmen z.B. Koordination aber wie passt das mit dem partiellen Parsing zusammen?

Inkrementalität

  • links-rechts -> kognitiv + effektiv
  • irgendwie -> nur Effektivierung
  • GLS konzentriert sich natürlicherweise auf das Ende des Satzes, weil dort noch nicht viel Aufwand investiert werden konnte
    • sind die utility-Abschätzungen auch noch im inkr.Fall aussagekräftig? -> Experimente
    • lassen sich ähnliche Heuristiken auch in andere Lösungsverfahren integrieren?

Erweiterte Vorverarbeitung

  • Chunk-Grenzen
    • hart vs. weich integrieren?
    • kann das in eine Implementation integriert werden?
    • Constraint-Überprüfung auch innerhalb der Chunks?
    • Was tun, wenn das scheitert?
    • Effekt der Chunk-Grenzen abschätzen
    • -> Chunkgrenzen und Köpfe manuell annotieren und ausprobieren

Höherstellige Constraints

  • transitive Ketten
  • Merkmals-Perkolation
  • Mapping-Strukturen
  • speziell geeignet für lokale Verfahren
  • wird dadurch Aufwand eingespart? Ebenen fallen weg
  • Problem: wie wird die Bewertung zugeteilt?

Existenzconstraints (beliebige Stelligkeit)

  • durch speziellen Mechanismus implementieren
  • sollten auch für den inkrementellen Fall effizient interpretierbar sein

Erweiterung auf aktive Wertezuweisungen?

  • Constraints müssen reevaluiert werden
  • welche Wertebindungen müssen bei Strukturänderungen zurückgenommen werden

Ergebniswiederverwendung (Chart, WFST)

  • nach wie vor attraktive Idee

Mehrebenenrepräsentation auch für PSG?

  • Syntax und Topologie, aber Semantik?
  • Wie Abbildung der Bäume

PSG-Parsing als Vorinformation für die Constraint-Anwendung?

  • weiche Integration: nicht durch das Parsingresultat lizensierte Kanten bestrafen
  • harte Integration: Unterordnung vorgegeben, Constraint-Parser ermittelt lexikalische Lesart und Kantenlabel
  • Information nur zeitweilig berücksichtigen: am Anfang/am Ende?

Aufgaben für Cristina

  • Integration von PVM in CDG
  • parallele Lösungsverfahren
    • keine Kommunikation
    • Austausch von Scores
    • Aufteilen von Transformationsschritten (Kommunikation von kompletten Bäumen)
  • feinkörnige Parallelisierung
    • zentrale Agenda -> viel Kommunikation
    • verteilte Agenda
  • bei inkrementeller Verarbeitung:
    • Trennen von Aufbau und Lösen des Constraintproblemes (lohnt sich das?)
  • Partitionierung der Constraints (zu viel Kommunikation)
  • Partitionierung der Variablen (genauer untersuchen/ausprobieren?)
  • Parallele Semantikkonstruktion

Aufgaben für Studenten

  • LRU-cache einbauen (Speicherplatz sparen)
  • Annotationstools/Lexikontools
  • Korpussammlung/Aufbereitung

Publikationspläne

  • Relativsatzextraposition
    • welche Entscheidungskriterien bringen wie viel
    • wo hilft die Verwendungskriterien
  • GLS
    • Erweiterungen des Basismechanismus
      • Begrenzung von Umwegen
      • Pruningstrategien
      • adaptive Terminierungskriterien
      • warum hat es nichts gebracht?
      • Phasen im Problemlösungsprozess
    • GLS in nebenläufigen Architekturen
    • in welche Problemklasse gehört CDG
    • kognitive Bezüge -> inkrementelle Verarbeitung
    • Vergleich mit bisherigen Verfahren -> schneller, aber schlechter
  • Parsing von Spracherkennungsergebnissen
    • schlechtere Wortgraphen erzeugen, ggf. ohne gesuchte Kette
    • Genauigkeit nur auf semantischer Ebene
    • Testsätze nicht im LM
  • Prosodie
    • nur auf gesuchter Kette analysieren
    • ist Phrasengrenzeninfo verfügbar?
    • -> Test mit 90 Testsätzen
    • sonst: ausgewählte Beispiele mit Akzent
  • Pronomen/Artikel-Unterscheidung
    • noch Claims: Besser? (wie häufig sind ueberhaupt entsprechende Fehler?) Schneller?

Kooperation Prag - Purdue

Lernverfahren

Lernen der Constraints a la Brill

  • beginnen mit einfachen Templates
  • evaluieren über Korpus
  • sukzessive kompliziertere Templates wenn keine guten Lösungen ausgeschlossen werden -> hartes Constraint
  • sonst
    1. verfeinern des Templates
    2. weiche Constraints -> Scores lernen
  • stochastische Verfahren?

Lernen von Transformationsschritten

  • zusätzliche Information: welche Veränderung ist in einer bestimmten Konfiguration am aussichtsreichsten?
  • Lernen von komplexen Transformationssequenzen
  • Verwendung der Transformationsregeln auch im GLS?
  • wie kann problemübergreifende Information auch beim GLS akkumuliert werden?
  • Lernen über Parsinghistorien vs. Lernen mit Baumbankinformation

-- MichaelSchulz - 22 Oct 2001
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback