#Aufgabenstellung:
findet Euch in 3er-Gruppen
* wählt eins der Querschnittsthemen
* betrachtet das Querschnittsthema in Bezug auf (alle) Vorlesungsthemen 
   * ggfs. auch im Blick auf andere Querschnittsthemen?
* bis 15:32
#Querschnittsthemen

Anwendungsbereiche
* Chatsysteme, Sprachnachrichten, Stille Post, 
* Spracherkennung: Untertitelung, Übersetzung, 
* Sprachsynthese: Vorlesen längerer Texte (Betonung), 
* Semantik: Firmen-Chatbots die bestimmte Themen beantworten können

Daten
* Rückgrat der meisten Systemkomponenten → nicht unbedingt alle
* Qualität vs. Quantität
* un-perfekte Daten (die ähnlich imperfekt sind wie die Nutzer und das System)
* Spracherkennung kann ich mit anderen Daten trainieren als Sprachsynthese (insbesondere auch "out-of-domain" → vgl. Anwendungsbereiche)

Evaluation
* Evaluationsmaße: 
	Spracherkennung → verstandene/nicht/falsche Wörter
	Robustheit ggü. Störsignalen (undeutlichen Sprechen, Leitungsqualität, ...)
	Turn-Taking-Qualität
	Sprachsynthese → Natürlichkeit, Verständlichkeit, Passung auf den Anwendungsbereich, 

Mehrsprachigkeit
* Passung des Sprechers auf die Systemsprache, Dialekte, Pausenunterschiede (und andere Turn-taking-Signale) zwischen Sprachen
* Spracherkennung und Alphabete, unterschiedliche Bedeutung zwischen Sprachen (Handy)
* Betonungen können viel wichtiger sein (vgl. auch Tonsprachen)
* inkrementelle Verarbeitung: Satzbau kann kritisch *sein*
* Schwierigkeiten durch: größeres Vokabular, Bedeutung im Kontext (Fremdwörter)

Multimodalität
* zusätzliche Information
* unterschiedliche Kanäle → unterschiedliche Unterbrechungen/Überlappungen/Fehlerquellen
* natürlicher (wie der Mensch)
* mehr Fehlerquellen 
* Bildausgaben zu einem textbasierten System
* zusätzliche Reaktionsmöglichkeiten (Vorsicht: der Nutzer spiegelt das dann)
	- relevante Modalitäten: Bildschirm-Ein/Ausgaben, Robotik: Aktivitäten/Gestik/Mimik? eines (humanoiden?) Roboters (oder auch als solche verstehbare Bewegungen oder auch Motorgeräusche), Bildwahrnehmung: Mimik/Gestik/Aktivitäten des Nutzers, Wahrnehmung über andere Nutzer. Lippenlesen
	- Generierung multimodaler Ausgaben: 
		- Konkurrenz von Modalitäten (Bewegung schränkt Kamerasicht ein, Motorengeräusche schränken Mikrophone und Lautsprecherausgaben ein, Aktivitäten müssen koordiniert werden)
		- Koordination zu generierender Ausgaben (wie?)
	- Verstehen multimodaler Eingaben:
		- Zeigegesten: großes Potential, nicht immer einfach zu verstehen (zeitliche Zuordnung!)
		- zeitliche Koordination der Signale 
		- was ist mit widersprüchlichem Inhalt?
		- Ergänzung von Modalitäten (Zeigegesten machen das häufig explizit -- "nimm dies", aber andere Gesten, wie zum Beispiel Gähnen, ergänzen die Bedeutungsebene ganz anders)
	- Bezug zu Daten: die Daten sind auf einmal viel komplizierter
Multi-party Dialog