UHH>Informatik>NatS>CDG Web>PapaMeetings>StartUpMeeting (17 Oct 2012, UnknownUser) Print version

StartUpMeeting in Denmark

Date: 3 Oct 2001 - 7 Oct 2001
Attendees: WolfgangMenzel(protocol), IngoSchroeder, KilianAFoth, MichaelSchulz
Comments:
Photos: TheCrew

StartUpMeeting in Denmark

Variable Verarbeitungstiefe

aus dem Verfahren heraus oder
extern gesteuert?

Unbekannte Wortformen

Wie können unbekannte Wortformen verarbeitet werden?
- unterspezifiziert -> macht mehr Arbeit
- ignorieren -> macht weniger Arbeit

Informationssuche vs. Fragebeantwortung

Informationssuche kann auch als Beantwortung einer sehr allgemeinen Fragestellung verstanden werden Wer fusioniert mit wem?
Vergleich mit anderen Verfahren

Anwendungsbereiche

relevanzgesteuertes Parsing z.B. Wirtschaftsnachrichten, merger etc.

Reading comprehension test

Schwerpunkt: Informationsanreicherung durch zyklische Analyse

Named Entities

partielle Strukturen, unbekannte Wörter sind eigene Kategorie im WB
Entscheidung fällt durch Disambiguierung (Vergabe derLabel)
Probleme:
- Komplexität: unbekannte Wörter müssen mit allen anderen verknüpft werden
- jedes unbekannte Wort kann Namenkategorie oder sonstiges sein
- jedes bekannte Wort kann auch Eigenname sein

Auswahlkriterien

Vergleichbarkeit waere gut
Interessante Phänomene muessen drin sein
Verfügbarkeit der Daten
angereicherte Daten (Tags, PS-Bäume)
sprachlich nicht zu einfach und nicht zu kompliziert
Außenwirkung (Seriosität)

Beispiele

Wirtschaftsnachrichten (WSJ, yahoo, vwd)
- Personalia
- Übernahmen
- Geschäftsaufgabe
- Anteile, Tochter verkaufen / Verkauf gescheitert
- Verkauf geplant
- Werksschließungen / Stellenstreichungen
- Finanzierungsschwierigkeiten
Heise-Ticker
- Produktbeschreibungen
- Rundfunknachrichten (D-Funk), Nachrichtenkanäle (Yahoo), Nachrichtenagenturen (Reuters)
- Staatsbesuche
- Katastrophen
Gerichtsberichte
Zeitschriften
- Negra/Tiger: Tags,Trees
- Verbmobil
- Lesetest: Status?
Sportmeldungen (yahoo)
- Siege
- Spieler-/Trainerwechsel
- Verletzungen, Unfälle
- Mannschaftsaufstellungen
- Wettkampftermine
- Bewertungen (Chancen, überraschende Ergebnisse)
- Ranglistenplätze
- Besucherzahlen
- Rekorde
- Auslosungen, Gruppenzusammenstellung

Weiterentwicklung der Verfahren

GLS: warum ist es manchmal so langsam bei einfachen Problemen?
Robustheit gegen Variationen bei der Parametersetzung Wortgraphen
inkrementell arbeitendes GLS
ist unterspezifizierte Anbindung (nonspec) mit partiellem Parsing verträglich?
Ergänzung um eine semantischen Verarbeitungskomponente
Slot-Filling incl. zeitlicher Bezüge?

Unterspezifikation

Ellipsenbehandlung in kontrolliertem Rahmen z.B. Koordination aber wie passt das mit dem partiellen Parsing zusammen?

Inkrementalität

links-rechts -> kognitiv + effektiv
irgendwie -> nur Effektivierung
GLS konzentriert sich natürlicherweise auf das Ende des Satzes, weil dort noch nicht viel Aufwand investiert werden konnte
- sind die utility-Abschätzungen auch noch im inkr.Fall aussagekräftig? -> Experimente
- lassen sich ähnliche Heuristiken auch in andere Lösungsverfahren integrieren?

Erweiterte Vorverarbeitung

Chunk-Grenzen
- hart vs. weich integrieren?
- kann das in eine Implementation integriert werden?
- Constraint-Überprüfung auch innerhalb der Chunks?
- Was tun, wenn das scheitert?
- Effekt der Chunk-Grenzen abschätzen
- -> Chunkgrenzen und Köpfe manuell annotieren und ausprobieren

Höherstellige Constraints

transitive Ketten
Merkmals-Perkolation
Mapping-Strukturen
speziell geeignet für lokale Verfahren
wird dadurch Aufwand eingespart? Ebenen fallen weg
Problem: wie wird die Bewertung zugeteilt?

Existenzconstraints (beliebige Stelligkeit)

durch speziellen Mechanismus implementieren
sollten auch für den inkrementellen Fall effizient interpretierbar sein

Erweiterung auf aktive Wertezuweisungen?

Constraints müssen reevaluiert werden
welche Wertebindungen müssen bei Strukturänderungen zurückgenommen werden

Ergebniswiederverwendung (Chart, WFST)

nach wie vor attraktive Idee

Mehrebenenrepräsentation auch für PSG?

Syntax und Topologie, aber Semantik?
Wie Abbildung der Bäume

PSG-Parsing als Vorinformation für die Constraint-Anwendung?

weiche Integration: nicht durch das Parsingresultat lizensierte Kanten bestrafen
harte Integration: Unterordnung vorgegeben, Constraint-Parser ermittelt lexikalische Lesart und Kantenlabel
Information nur zeitweilig berücksichtigen: am Anfang/am Ende?

Aufgaben für Cristina

Integration von PVM in CDG
parallele Lösungsverfahren
- keine Kommunikation
- Austausch von Scores
- Aufteilen von Transformationsschritten (Kommunikation von kompletten Bäumen)
feinkörnige Parallelisierung
- zentrale Agenda -> viel Kommunikation
- verteilte Agenda
bei inkrementeller Verarbeitung:
- Trennen von Aufbau und Lösen des Constraintproblemes (lohnt sich das?)
Partitionierung der Constraints (zu viel Kommunikation)
Partitionierung der Variablen (genauer untersuchen/ausprobieren?)
Parallele Semantikkonstruktion

Aufgaben für Studenten

LRU-cache einbauen (Speicherplatz sparen)
Annotationstools/Lexikontools
Korpussammlung/Aufbereitung

Publikationspläne

Relativsatzextraposition
- welche Entscheidungskriterien bringen wie viel
- wo hilft die Verwendungskriterien
GLS
- Erweiterungen des Basismechanismus
  - Begrenzung von Umwegen
  - Pruningstrategien
  - adaptive Terminierungskriterien
  - warum hat es nichts gebracht?
  - Phasen im Problemlösungsprozess
- GLS in nebenläufigen Architekturen
- in welche Problemklasse gehört CDG
- kognitive Bezüge -> inkrementelle Verarbeitung
- Vergleich mit bisherigen Verfahren -> schneller, aber schlechter
Parsing von Spracherkennungsergebnissen
- schlechtere Wortgraphen erzeugen, ggf. ohne gesuchte Kette
- Genauigkeit nur auf semantischer Ebene
- Testsätze nicht im LM
Prosodie
- nur auf gesuchter Kette analysieren
- ist Phrasengrenzeninfo verfügbar?
- -> Test mit 90 Testsätzen
- sonst: ausgewählte Beispiele mit Akzent
Pronomen/Artikel-Unterscheidung
- noch Claims: Besser? (wie häufig sind ueberhaupt entsprechende Fehler?) Schneller?

Kooperation Prag - Purdue

Lernverfahren

Lernen der Constraints a la Brill

beginnen mit einfachen Templates
evaluieren über Korpus
sukzessive kompliziertere Templates wenn keine guten Lösungen ausgeschlossen werden -> hartes Constraint
sonst
1. verfeinern des Templates
2. weiche Constraints -> Scores lernen
stochastische Verfahren?

Lernen von Transformationsschritten

zusätzliche Information: welche Veränderung ist in einer bestimmten Konfiguration am aussichtsreichsten?
Lernen von komplexen Transformationssequenzen
Verwendung der Transformationsregeln auch im GLS?
wie kann problemübergreifende Information auch beim GLS akkumuliert werden?
Lernen über Parsinghistorien vs. Lernen mit Baumbankinformation

-- MichaelSchulz - 22 Oct 2001

CDG

Navigation

Publications

NatsWiki
Main
User
Sandbox
System

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback