Welcome to the ProSub1415 web

WorkItems

Available Information

Input: Text, Video (bzw. Audio)Verarbeitungsschritte:
  • Text in einzelne Sätze und Wörter teilen (Tokenisierung)
  • Text normalisieren ("USB" --> ju es bi (oder $U $S $B), "1985" --> neun zehn hundert fünf und achtzig)
  • Alignieren (normalisierte Wörter und Audio in Einklang bringen)
  • alle Rückpointer zurückverfolgen, fertig!

nutzbare Software
  • Tokenisation: NLTK.Punkt?, WASTE, JTok (in MaryTTS oder in heart-of-gold)
  • Normalisierung: MaryTTS (DE und EN), eSpeak
  • Aussprachemodellierung/Lexikon: SequiturG2P,
  • Alignieren: Sphinx Long-Audio Alignment
  • Daten-Haltung: XML+XPointer (=PAULA)
  • Anzeigen/Editieren: via ANNIS, MMAX2?, amara.org, eigenes?

Herausforderungen:
  • Audioqualität

Formalia:
  • ein Projektbericht von allen
  • Abschlusspräsentation
  • Kurzpräsentation?

Termine:
  1. Intro, Formalia, Arbeitsaufträge, Zeitplanung
  2. Hausaufgabe: ein Video mit Transkription (und/oder Subtitles) intensiv studieren; Vortrag: Einführung in die Spracherkennung (Timo), kleines Tutorium zum Forced Alignment
  3. Vortrag: XML/XPath/XPointer
  4. Prototyp fertig
Weihnachten
  1. Präsentation der Ergebnisse (26. oder 28. Januar 2015)
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback