Anhand welcher Daten können Sie schätzen: a) das akustische Modell: Tonaufnahmen (Observationen) und zugehörige Transkripte (die Wortfolgen!) **Laute, Teilwörter, *ganze Wörter Morphologie? lieber mehr oder weniger Daten? "more data is better data" "better data is better data" Aussprachemodellierung: man muss Wörter nicht komplett unterscheiden, die ähnlich klingen b) das Wortfolgemodell: Text (zum Beispiel aus der Zeitung, ideal: Spezifika gesprochener Sprache) (Chats?, Filmuntertitel?, Beispiele aus unserer Domäne, die Transkripte aus (a) soweit sie zu unserer Domäne passen, ...) --- Grundlagen der Konzepte wie Spracherkennung funktioniert technischer Überblick: was gibt es heute? wie "lernt" die Spracherkennung wie gut ist menschliche Spracherkennung, wie messe ich überhaupt, wie gut Spracherkennung ist? wie sehr geht Spracherkennung auf Aspekte der gesprochenen Sprache ein? wo hört Spracherkennung auf, wo fängt sie an? wie funktioniert es Namen zu erkennen, bzw. warum funktioniert es nicht den Kontext des Gesagten verstehen wie auf den Kontext antworten? wie wird Emotion erkannt Gestik/Mimik/Multimodalität Sign-Language-Erkennung