#Aufgabenstellung: findet Euch in 3er-Gruppen * wählt eins der Querschnittsthemen * betrachtet das Querschnittsthema in Bezug auf (alle) Vorlesungsthemen * ggfs. auch im Blick auf andere Querschnittsthemen? * bis 15:32 #Querschnittsthemen Anwendungsbereiche * Chatsysteme, Sprachnachrichten, Stille Post, * Spracherkennung: Untertitelung, Übersetzung, * Sprachsynthese: Vorlesen längerer Texte (Betonung), * Semantik: Firmen-Chatbots die bestimmte Themen beantworten können Daten * Rückgrat der meisten Systemkomponenten → nicht unbedingt alle * Qualität vs. Quantität * un-perfekte Daten (die ähnlich imperfekt sind wie die Nutzer und das System) * Spracherkennung kann ich mit anderen Daten trainieren als Sprachsynthese (insbesondere auch "out-of-domain" → vgl. Anwendungsbereiche) Evaluation * Evaluationsmaße: Spracherkennung → verstandene/nicht/falsche Wörter Robustheit ggü. Störsignalen (undeutlichen Sprechen, Leitungsqualität, ...) Turn-Taking-Qualität Sprachsynthese → Natürlichkeit, Verständlichkeit, Passung auf den Anwendungsbereich, Mehrsprachigkeit * Passung des Sprechers auf die Systemsprache, Dialekte, Pausenunterschiede (und andere Turn-taking-Signale) zwischen Sprachen * Spracherkennung und Alphabete, unterschiedliche Bedeutung zwischen Sprachen (Handy) * Betonungen können viel wichtiger sein (vgl. auch Tonsprachen) * inkrementelle Verarbeitung: Satzbau kann kritisch *sein* * Schwierigkeiten durch: größeres Vokabular, Bedeutung im Kontext (Fremdwörter) Multimodalität * zusätzliche Information * unterschiedliche Kanäle → unterschiedliche Unterbrechungen/Überlappungen/Fehlerquellen * natürlicher (wie der Mensch) * mehr Fehlerquellen * Bildausgaben zu einem textbasierten System * zusätzliche Reaktionsmöglichkeiten (Vorsicht: der Nutzer spiegelt das dann) - relevante Modalitäten: Bildschirm-Ein/Ausgaben, Robotik: Aktivitäten/Gestik/Mimik? eines (humanoiden?) Roboters (oder auch als solche verstehbare Bewegungen oder auch Motorgeräusche), Bildwahrnehmung: Mimik/Gestik/Aktivitäten des Nutzers, Wahrnehmung über andere Nutzer. Lippenlesen - Generierung multimodaler Ausgaben: - Konkurrenz von Modalitäten (Bewegung schränkt Kamerasicht ein, Motorengeräusche schränken Mikrophone und Lautsprecherausgaben ein, Aktivitäten müssen koordiniert werden) - Koordination zu generierender Ausgaben (wie?) - Verstehen multimodaler Eingaben: - Zeigegesten: großes Potential, nicht immer einfach zu verstehen (zeitliche Zuordnung!) - zeitliche Koordination der Signale - was ist mit widersprüchlichem Inhalt? - Ergänzung von Modalitäten (Zeigegesten machen das häufig explizit -- "nimm dies", aber andere Gesten, wie zum Beispiel Gähnen, ergänzen die Bedeutungsebene ganz anders) - Bezug zu Daten: die Daten sind auf einmal viel komplizierter Multi-party Dialog