Anhand welcher Arten von Daten können wir schätzen: (a) das akustische Modell P(O|W) / P(O|Ph)? Datenpaare: zu gegebenen Wörtern/Wortfolgen das Sprachsignal/Varianten des Sprachsignals (b) das Wortfolgemodell P(W)? passende Texte, Transkripte von Konversationen, Twitter/Reddit/Foren, ... → ist es wichtig, dass es sich um Dialogdaten handelt? → nicht zwingend, aber natürlich gut; insbesondere bei den Texten; beim Sprachsignal eher unwichtig. Aussprachemodellierung: man muss Wörter nicht komplett unterscheiden die ähnlich klingen: Hund -> /h U n t/ und -> /U n t/ rund -> /r U n t/ → wenn man Lautsequenzen modelliert und einzelne Lautmodelle trainiert, anstatt Modelle für ganze Wörter zu trainieren, dann sind die einzelnen Modelle kleiner und man hat wesentlich mehr Laute als Wörter (und es gibt weniger Laute als es Wörter gibt), sodass das Training einfacher wird. interessante Fragen: - wie messe ich überhaupt, wie gut Spracherkennnug ist? nicht behandelt (aus den Folien): Konfidenzmodellierung