Input: Text, Video (bzw. Audio)Verarbeitungsschritte:
Text in einzelne Sätze und Wörter teilen (Tokenisierung)
Text normalisieren ("USB" --> ju es bi (oder $U $S $B), "1985" --> neun zehn hundert fünf und achtzig)
Alignieren (normalisierte Wörter und Audio in Einklang bringen)
alle Rückpointer zurückverfolgen, fertig!
nutzbare Software
Tokenisation: NLTK.Punkt?, WASTE, JTok (in MaryTTS oder in heart-of-gold)
Normalisierung: MaryTTS (DE und EN), eSpeak
Aussprachemodellierung/Lexikon: SequiturG2P,
Alignieren: Sphinx Long-Audio Alignment
Daten-Haltung: XML+XPointer (=PAULA)
Anzeigen/Editieren: via ANNIS, MMAX2?, amara.org, eigenes?
Herausforderungen:
Audioqualität
Formalia:
ein Projektbericht von allen
Abschlusspräsentation
Kurzpräsentation?
Termine:
Intro, Formalia, Arbeitsaufträge, Zeitplanung
Hausaufgabe: ein Video mit Transkription (und/oder Subtitles) intensiv studieren; Vortrag: Einführung in die Spracherkennung (Timo), kleines Tutorium zum Forced Alignment
Vortrag: XML/XPath/XPointer
Prototyp fertig
Weihnachten
Präsentation der Ergebnisse (26. oder 28. Januar 2015)