This (incomplete, constantly extended/revised) list contains your ideas for exam questions (slightly edited) with my comments as to how well I think they cover the contents of the course. See also last year's questions.

Allgemein

01. Sprachliches Kommunikationssystem

  • Nenne drei Unterdisziplinen der Sprachwissenschaften und beschreibe kurz ihre Zuständigkeit. (VL 1) Zum Beispiel:
    • Syntax: Untersuchung der Satzstrukuren in Sprachen.
    • Phonetik: Die Lehre von den Lauten der menschlichen Sprache (Phone); Phonologie: Lehre der Lautsysteme von Sprachen (Phoneme: bedeutungsunterscheidende segmentale Einheiten innerhalb einer Sprache) → Merkregel: "ich/ach"-Laut; Nacht/Nächte
    • Semantik: Die Lehre der Bedeutung von Sprache (einzelne Wörter: Lexikographie, Sätze/Wörter im Kontext: Semantik; sprachliche Äußerungen in der jeweiligen Situation: Pragmatik).
  • Wie sieht ein geschachteltes Shannon-Weaver model aus?

02. Dialog

  • Nenne zwei Probleme mit dem einfachen Schichtenmodell des sprachlichen Systems zur Darstellung von Dialog. (VL 2)
    • Der Kommunikationskanal wird von den beiden Personen geteilt, was dazu führt, dass gleichzeitig gesprochen werden kann.
    • Es ist dann nicht nur ein eindeutiges Kommunikationssignal auf dem Kanal, das von einer bestimmten Person empfangen werden muss.
    • Außerdem stellt sich so im Dialog die Frage nach der Rollenzuweisung im Modell. Es sind beide Personen Sender und beide Empfänger z.T. sogar gleichzeitig. Das Schema erlaubt eine solche Darstellung und daher Bearbeitung nicht.
  • Nenne 3 Turn-Taking Signale: direkte Aufforderung, lange Pausen, Betonung/Satzmelodie, Signalwörter, (syntaktische|semantische|pragmatische) Abgeschlossenheit
  • Wie unterscheidet sich eine moderierte Veranstaltung von einem Dialog, insbesondere in Bezug auf das Turn-Taking?
    • Turn-Taking ist "lokal", das heißt wer den nächsten Redebeitrag spricht entscheidet sich spontan durch (subtile) Signale;
    • im Unterschied entscheidet bei einer moderierten Veranstaltung ein Moderator, wer als nächstes sprechen darf/soll; die "Nicht-Lokalität" zeigt sich z.B. auch in Rednerlisten u.ä.
    • "Wir hatten ja diskutiert, dass ein Dialog in beide Richtungen funktioniert, sprich jeder Sprecher ist auch ein Hörer und umgekehrt. Außerdem hat man meist zwei Teilnehmer aber ggf. auch mehr als 2 Teilnehmer. Die moderierte Diskussion ist im Gegensatz dazu ja etwas flexibler in der Anzahl der Teilnehmer, da diese sich ständig ändern kann. Darüber hinaus besteht der moderierte Dialog aus mehreren Frage/Antwort-Paaren bzw. „Turns“. Bei einer moderierten Veranstaltung haben wir außerdem meist ein zeitliches Limit. In Bezug auf das Turn-Taking geht es konkret ja darum, dass im Dialog durch gewisse Turn-Taking Signale dem Hörer vermittelt wird, dass der Redebeitrag zu Ende geht oder man den Hörer auffordert zu reden. Bei einem moderierten Dialog ist es meistens ja nicht so interaktiv und nur der Hauptsprecher (Die Person, die den Dialog moderiert) sorgt für ein Turn-Taking Signal, damit auch der Hörer ggf. die Möglichkeit hat etwas zu sagen. Jedoch sind hier nicht beide Parteien gleichzeitig Hörer und Sprecher."
  • Warum kann man einen Dialog als kollaborative Aktivität verstehen? → Das gemeinsame Verständnis der Teilnehmenden im Dialog wird graduell ausgebaut. Dabei wird von den Teilnehmenden gegenseitig sichergestellt, dass die anderen auf dem gleichen Wissensstand sind.

03. Dialogsystemaufbau

  • Visualisieren Sie den Ablauf innerhalb einer traditionellen Pipeline-basierten / Blackboard-basierten Architektur, angefangen bei der vom Benutzer getätigten, Eingabe, bis hin zur endgültigen Ausgabe des Systems.
  • Erläutern Sie in eigenen Worten die Funktionsweise der X-Komponente und/oder Y-Komponente.
  • Nennen Sie je 2 Vor- und Nachteile / 3 Unterschiede von "Wasserfall-/Pipelinemodell" und "Blackboard"-basierte Architektur → konzeptionelle Einfachheit (Pipeline, insbesondere der Schnittstellen), Mächtigkeit (Blackboard; z.B. Probleme der Terminierungssicherheit); Wiederverwendbarkeit von Komponenten (eher Pipeline); Blackboard ermöglicht höhere Systemperformanz zum Beispiel weil Komponenten Feedback geben können (Pipeline kann stattdessen N-best-Hypothesen weiterreichen die durch Folgekomponenten selektiert werde)
  • Nennen Sie die fünf Hauptkomponenten eines Sprachdialogsystems. Antwort: Spracherkennung, Sprachverstehen, Dialogmanagement, Sprachgenerierung, Sprachsynthese. Begründung: Man braucht ja auch ein paar "Anforderungsbereich 1Aeinfach"-Fragen. Und das ist eine die kein Auswendiglernen erfordert, sondern nur, dass man gelegentlich die Vorlesung besucht hat.
  • Nennen und Beschreiben Sie zwei zentrale Funktionen von Dialogmanagement (nach Lison): Antwort:
    1. Abbilden des aktuellen Dialogzustandes. Dies kann beispielsweise über Frames passieren, welche zur Dialogdomäne passende Slots haben, die gefüllt werden.
    2. Decision Making. Hierbei geht es darum, dass auf Basis des aktuellen Dialogzustandes entschieden wird, welche Aktionen das Dialogsystem ausführt.
  • Erklären Sie den Unterschied zwischen Pipeline- und Blackboard-Architektur. Wie wirkt sich dieser Unterschied auf die Dialogführung aus? Antwort:
    • Bei Dialogsystemen mit Pipeline-Architektur werden die Komponenten sequentiell aneinandergereiht, wohingegen bei Systemen mit Blackboard-Architektur die Komponenten um einen zentralen Information state herum konstruiert werden, wobei die Komponenten jeweils den information state lesen und beschreiben können.
    • Es gibt verschiedene Auswirkungen auf die Dialogführung. Eine ist, dass das turn-taking bei Blackboard-Systemen deutlich besser sein kann, weil auch in der Verarbeitung auf neuen Input reagiert werden kann. Eine weitere Auswirkung ist, dass Kontext-Informationen in Blackboard-Systemen besser berücksichtigt werden können.
  • Benennen Sie ein Problem bei der Behandlung von Turn-Taking in pipeline-basierten Dialogsystemen. Wieso ist es in Blackboard-basierten Systemen weniger gravierend? → frühere Module können nicht auf folgende Information zugreifen, sodass die ASR Turn-Taking betreiben muss, allerdings nicht syntaktische oder semantische Abgeschlossenheit mitbetrachten kann.
  • "Warum braucht man nicht unbedingt Floor-Management im Dialogsystem? Was kann stattdessen verwendet werden?" → Dialoginteraktion ist sehr robust. Die menschlichen Teilnehmer passen sich der Maschine an und Dialogsysteme nutzen diese Robustheit schamlos aus. Statt viele Turn-taking Signale zu betrachten, wird auf wenige oder gar auf eines reduziert. Das könnte beispielsweise eine Unterbrechung in der Sprache sein "0,5 Sekunden nichts gesagt heißt, der Sprecher ist fertig und die Antwort kann gegeben werden". Anmerkung TB: auch das ist ja eine gewisse Form des Floor-Managements...

04. Spracherkennung

  • Erklären Sie die Bayes´sche Regel mit einer Formel und erklären Sie woraus die Komponenten der Formel bestehen
  • speziell die Formel W = arg max W: P(O|Ph)*P(Ph|W)*P(W) "Beschreibe möglichst allgemein, was die einzelnen Komponenten P(O|Ph), P(Ph|W) und P(W) bedeuten." Hier kann man erwarten, dass zumindest die Bedeutung der einzelnen Terme dargelegt werden und im besten Fall noch auf die Verwendung von Phonemen statt Wortfolge im akustischen Modell eingegangen wird.
  • Was beschreiben das "Akustische Modell", das "Wortfolge-Modell" und das "Aussprachemodell"?
  • Wie lautet die Formel zur Bestimmung der am wahrscheinlichsten zur Obervation passenden Wortsequenz Ŵ = arg max W:P(W|O), die sich aus diesen Modellen zusammensetzt?
  • Nennen Sie 3 Beispiele für Details, welche bei der Spracherkennung (durch Abstrahieren in Text) verloren gehen und sich dadurch negativ auf den Dialogmanager auswirken. → Sarkasmus/Ironie, Prosodie (Betonungsmuster, Frage/Aussage, umfahren...), Gestik/Mimik-Zusammenhänge
  • Beschreiben Sie kurz die Aufgabe der Spracherkennung sowie dessen Output.
    • Antwort: Aufgabe der Spracherkennungskomponente ist es, den Input in Form eines rohen Sprachsignals in eine Menge von Hypothesen, welche die geäußerten Wortfolgen repräsentieren, zu konvertieren. Output ist dabei eine n-Bestenliste von Äußerungshypothesen mit ihren Konfidenzen.
  • Gegeben ein Sprachsignal, wie bestimmt man in der Spracherkennung die wahrscheinlichste Wortfolge dazu? (Wie bestimmen wir P(W|O)?) (VL 4)
    • Wir nutzen die Bayes'sche Regel aus und können statistisch P(O|W)xP(W) ermitteln. P(W) benötigt eine umfangreiche Analyse von Texten, um eine absolute Wahrscheinlichkeit von Wortfolgen zu ermitteln. Für P(O|W) bräuchte es dann eine Wörterbuch, wo die Aussprache vermerkt ist.
  • wie ist das mit der Konfidenz?
  • Erklären Sie sowohl das "Akustische Modell" sowie das "Wortfolge-Modell" und wie diese beiden zueinander in Beziehung stehen --> bzw. wie diese in Spracherkennungssoftware zusammenspielen
    • "Hierbei habe ich nicht ganz verstanden, was genau die Erwartungen in so einer Aufgabe wären. Reicht es das „Akustische Modell“ und das „Wortfolge Modell“ grob zu erklären und was Sie unterscheidet bzw. die Interaktion oder soll man auch in den theoretischen Teil rein gehen?" → je nach konkreter Aufgabenstellung wäre hier eine Erläuterung der linguistischen Seite (also Wörter, Laute und möglicherweise Lexikon als Bindeglied) relevant, oder aber eine Erläuterung, dass die Spracherkennungsaufgabe P(W|O) durch akustisches Modell (P(O|W)) und Wortfolgemodell (P(W)) gelöst werden kann (auch hier möglicherweise mit Lexikon als Bindeglied).
  • "Wofür benötigen wir den Token-Pass Algorithmus bei der Spracherkennung?" (vielleicht zu theoretisch...) → Der Token-Pass Algorithmus wird für die Spracherkennung verwendet. Es gibt viele Observationen, die jeweils kurze Zeit auseinander liegen. Zudem gibt es einen Graphen, der für Wörter, ihre Lautfolgen als States eingebettet und die Übergänge der Laute mit Gewichte versehen hat. Der Algorithmus soll jetzt einen Weg, für eine gegebene Observationsfolge, durch den Graphen finden, dessen Gewicht möglichst gering ist => die Wahrscheinlichkeit, dass die Observationsfolge dieses eine geratene Wort ergibt, steht in korrelation mit dem akkumulierten Gesamtgewicht (je niedriger desto besser).

05. Sprachsynthese

  • Focus and Accentuation [Foliensatz 5, Folien 30 ff.]
Nennen sie vier verschiedene Interpretationen und welches Wort dafür betont werden muss für den folgenden Satz: "We didn't buy this car from here." Antwortmöglichkeiten: - "[We] didn't buy this car from here." Someone else bought the car - "We didn't buy [this] car from here." They bought a different car - "We didn't buy this car [from here]." They bought the car somewhere else - "We didn't [buy] this car from here." They either leased the car, won it in a raffle, ...
  • Worin unterscheiden sich "formantbasierte" Synthese und "musterbasierte" Synthese? Nennen Sie je 2 Vor- und Nachteile.
  • Vergleichen Sie die Konkatenative mit der Modell-basierten Sprachsynthese, geben sie dabei 2 Merkmale für jeden der beiden an

06./09. Sprachverstehen (grammatikbasiert, frame-basiert)

  • Grammatik [Foliensatz 6, Folien 26 ff.]
Erstellen sie eine Grammtik für die Eingabe eines Ziels in ein Navigationssystem Antwortmöglichkeiten: -Grammtik S -> ADR UBE ADR -> STR ZIF ORT UBE -> ("über" | "und") ADR STR -> Straßenname ORT -> ["in"] [ZIF] Ortsnamen ZIF -> "0" ZIF | "1" ZIF | "2" ZIF | "3" ZIF | "4" ZIF | "5" ZIF | "6" ZIF | "7" ZIF | "8" ZIF | "9" ZIF | ""
  • "Wofür können Grammatiken in der Spracherkennung genutzt werden? Was passiert, wenn die Spracherkennung wenig/viel erkennt? Was für Auswrikung hat die Abwägung auf die Grammatik?"
Hier kann man erwarten, dass zumindest verstanden wurde, dass eine Grammatik zur Spracherkennung verwendet werden kann. Dabei wird die Eingabe aus der Grammatik abgeleitet und sollte dies gelingen, so ist die Eingabe erfolgreich. Mit der zweiten Frage ziele ich natürlich auf die Folie 30 des 6. Foliensatzes ab: Kann die Spracherkennung weniger verstehen, so macht sie weniger falsch. Kann die Spracherkennung mehr verstehen, kann sie auch mehr Fehler als korrekt erkennen. Die Abwägung betrifft die Grammatik direkt in ihren Ableitungsregeln. Dort ist dann die Frage: Welche Regel ist Sinnvoll und welche kann man Abändern oder entfernen. Ein Beispiel wäre hier natürlich auch schön aber das würde den Zeitrahmen sprengen, sofern einer vorhanden ist. Ansonsten, wie in der Vorlesung: Kontext geben und der Student soll verschiedene Sätze zu diesem Kontext äußern und versuchen diese in Regeln umzuwandeln.
  • Frame-Semantik und Slots [Foliensatz 9,Folien 10 ff.]
Definieren sie Frame und Slots für den folgenden Satz: "John leiht Jürgen seine Deluxe edition der Herr der Ringe DVDs" Mögliche Antwort: -Frame "Verleih Tansaktion" -Slots Verleiher: "John" Ausleiher: "Jürgen" Verleihgegenstand: "Herr der Ringe DVDs" Variante: "Deluxe edition" Verleihdauer: ""
  • Szenario Fastfood-Restaurant Kunde: "Ich hätte gerne einen Hamburger mit Fritten und dazu eine große Cola." Überlegen Sie sich mögliche Slots eines für dieses Szenario entwickelten Frame-basierten Dialogmanagers. Geben Sie auch den Frame-Inhalt nach der ersten Äußerung des Kunden sowie eine mögliche Reaktion des Dialogmanagers an.
  • Beschreiben Sie, worum es sich nach Lison bei "Dialog Acts" handelt. Antwort: Jeder Turn in einem Dialog besteht aus einen oder mehreren Äußerungen. Eine Äußerung hat immer ein Ziel und sollte deshalb als Aktion (=Dialog Act) interpretiert werden, welcher der Sprecher nutzt, um den Dialogzustand zu verändern. Jeder DA fällt dabei in eine von mehreren Kategorien wie beispielsweise Directives, wo der Sprecher den Adressaten dazu bringen möchte, etwas bestimmtes zu tun.

07. graphbasiertes Dialogmanagement

  • Was sind die Limitationen von endlichen Automaten als Dialogsysteme? (VL 7)
    • Für jeden unterschiedlichen Verlauf im Dialog muss es auch einen Zustand im Dialogsystem geben. Das wird in dem Moment kompliziert, wenn es darum geht Dinge zu behalten. In einem endlichen Automaten gibt es keinen Keller, der Variablenwerte halten kann. Wenn ein System z.B. nach einem Namen fragt, kann dieser nicht behalten werden. Es sei denn man würde manuell für alle möglich Namen auf der Welt ein solches System aufspannen und das ist einfach nicht realisierbar. Schon bei kleinen Entscheidungen braucht es immer schon einen neuen Pfad. So übersteigt die Komplexität der Zustände und Zustandsübergänge leicht die Komplexität des Dialogs.

08. situiertes Dialogmanagement

  • Überlegen Sie sich eine geeignete Domäne (oder vielleicht einmal ~10 Domänen aufschreiben und zufällig auf die Klausuren verteilen?) und mindestens X-viele mögliche Abläufe des Dialogs. Beginnen Sie mit einer Begrüßung und einer Einschränkung, was als nächstes gesagt werden soll.
  • Wie kann man das Problem fehlenden Kontextwissens lösen?

10. frame-basiertes Dialogmanagement

  • "Wofür werden sogenannte Frames im Dialogmanagement eingesetzt?" Ist vielleicht eine langweilige Frage... Ansonsten:
"Gegeben sei ein Task-basiertes Dialogsystem, welches mittels Frames seine Aufgaben erfüllt (bspw. Erinnerung einrichten). Wie könnte ein Frame für dieses Dialogsystems aussehen (bspw. für Erinnerungen einrichten). Stell dir vor, jemand möchte eine Erinnerung für den morgigen Tag, für ein Meeting einrichten. Was fehlt an Informationen? Was kann das Dialogsystem unternehmen, um sich diese fehlenden Informationen einzuholen?" Hier kann man erwarten, dass ein Frame mit zumindest ein paar Slots wie Zeit, Datum, Art der Erinnerung, Ort o.ä. erstellt wird. Die fehlenden Informationen werden durch schlichtes Nachfragen eingeholt, dabei spielt die Reihenfolge der Fragen keine Rolle, solange die Variablen belegt werden.
  • Szenario Fastfood-Restaurant Kunde: "Ich hätte gerne einen Hamburger mit Fritten und dazu eine große Cola." Überlegen Sie sich mögliche Slots eines für dieses Szenario entwickelten Frame-basierten Dialogmanagers. Geben Sie auch den Frame-Inhalt nach der ersten Äußerung des Kunden sowie eine mögliche Reaktion des Dialogmanagers an
  • entwickeln Sie für eine gegebene Domäne eine Frame-Darstellung und zeigen Sie anhand eines Beispieldialogs die Abläufe im Dialogmanagement während der Dialogverarbeitung

11. statistische Methoden der Dialogmodellierung

  • Worüber muss ein Dialogue-state Tracker jederzeit den Überblick behalten?
    1. Die zuletzt gefüllten Slots b. Alle bereits gefüllten Slots c. Das, was der User als letztes gesagt hat d. Alle vorherigen Antworten (a-c)

12. konnektionistisches Dialogmanagement

13.: inkrementelle Dialogverarbeitung

  • Benennen Sie die wesentlichen Eigenschaften des "Incremental Unit Models" und erklären Sie, welche Aspekte der Verarbeitung diese jeweils lösen?
    • "Die wesentlichen Eigenschaften kriege ich hin. Aber was ist mit „welche Aspekte….“ gemeint?" → siehe folgende Punkte:
    • 1. Aspekt: Daten stückweise als Eingabe nutzen: Gesamteingabe kann in kleine Einheiten zerlegt werden; Zusammenhang/Reihenfolge der Einheiten anhand same-level-links
    • 2. Aspekt: Eingaben können widerrufen werden (wenn vorangehendes Modul "seine Meinung ändert") und darauf müssen Ausgaben widerrufen werden; Zusammhang von Eingabe/Ausgabe-Beziehungen durch grounded-in-links
  • Was ist der Unterschied zwischen einem modularen inkrementellen System und einem inkrementellen System?
    • "Im modularen werden ja partielle Hypothesen dafür genutzt um (abgekürzt) einen Output zu erzeugen der (hoffentlich) richtig ist. Ist das beim nicht-modularen nicht auch der Fall? Dort wird ja auch der Output bereits generiert, wenn Teile des Inputs noch nicht verarbeitet wurden." → die Modularität ist eine andere Frage als die Inkrementalität. Modularität besteht, wenn das System aus mehreren Modulen zusammengesetzt ist (so wie wir es fast immer gesehen haben) anstatt aus einer großen, von außen nicht unterteilbaren Software zu bestehen (wie z.B. der Linux Kernel). Inkrementalität ist eine davon unabhängige Frage, die sich mit der Art der Verarbeitung beschäftigt.
  • Worin liegt der Hauptunterschied zwischen einem (modularen) pipeline Dialogsystem und einem (modularen) inkrementellen Dialogsystem?" → Ein pipepline Dialogsystem kann nur die gesamte Anweisung aufnehmen und diese dann verarbeiten. Das hat zur Folge, dass es auch keine Reaktionen gibt, bevor die Anweisung vollständig verarbeitet wurde. Dahingegen nimmt man bei einem inkrementellen Dialogsystem an, dass die Anweisung aus kleinen Einheiten besteht, die auch stück für stück verarbeitet werden können. Das heißt, während der Benutzer spricht, können bereits Aktionen durchgeführt werden. Anmerkung TB: auch die Module in einem inkrementellen System sind (im wesentlichen) in einer Pipeline angeordnet; Abweichungen von der Pipeline gibt es nur, wenn folgende Module die Ausgaben vorheriger Module beeinflussen können (haben wir nicht behandelt, ist aber möglich)
  • "Worin liegt die Schwierigkeit bei inkrementeller Verarbeitung?" → Das System kann zu jeder kleinen Einheit die übergeben wird, eine Aktion ausführen, die auf einer Hypothese basiert, welche nicht korrekt ist. Das System kann Hypothesen nur auf Grundlage von bisherigem Wissen aufstellen aber der Kontext kann das Ergebnis noch beeinflussen. Beispiel "FOUR - TEE - N - AGERS".
  • "Gebe ein Beispiel für eine Affordanz aus dem Alltag. Wie können Affordanzen eingesetzt werden, um für einen natürlicheren/einfacheren Umgang mit Dialogsystemen zu sorgen?" → Eine Affordanz ist eine implizite Aufforderung mit einem Objekt etwas zu tun. Ein Stuhl bietet an, sich drauf zu setzen. Eine Tür möchte geöffnet werden. Ein Lichtschalter kann gedrückt werden. Diese Aufforderungen müssen nicht erklärt werden, sondern leiten sich von der Beschaffenheit der Objekte ab. Dies kann für die inkrementelle Verarbeitung bei Dialogsystemen genutzt werden. Statt einem System genau zu erklären, wie die Aktion die man ausführen möchte definiert ist, gibt man Richtungsanweisung und leitet das System in einen Zustand, der das Ziel erreicht (siehe: Beispiel mit den Bauklötzen und dem Elefanten).

Querschnittsthemen:

Evaluation:

  • Jurafsky und Martin schreiben, dass es oft ökonomisch nicht umsetzbar sei, nach jeder Änderung eines Systems vollständige Studien zur Benutzerzufriedenheit durchzuführen. Aus diesem Grund ist es sinnvoll, Performanz-Evaluations-Heuristiken zu haben, welche mit der Zufriedenheit menschlicher Nutzer korrelieren. Benennen Sie X-viele und erklären Sie hiervon Y-viele in eigenen Worten.

-- TimoBaumann - 01 Feb 2021

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback