Proseminar: Verarbeitung gesprochener Sprache

Vorgehensweise:

Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird. Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.

Termine:

# Datum Thema ggfs. Referenten
1. 01.04.2015 Einführung, Brainstorming Anwendungsbereiche alle
2. 08.04.2015 Systematisierung und Erschließung eines Phänomenbereichs alle
3. 15.04.2015 Aufbau von Sprache Timo Baumann
4. 22.04.2015 Präsentations-Einmaleins, Koordination der Vortragsdiskussionen alle, Kleingruppen
5. 29.04.2015 Experiment und Evaluation alle, Timo Baumann
6. 06.05.2015 Vorträge A: Sprachsignalrepräsentation Christopher Jarsembinski, Finn Jörgensen, Connor Gäde
7. 13.05.2015 Vorträge B: Sprachsignalverarbeitung Niklas Winkemann, Jannis Krämer, Maximilian Zierke
8. 20.05.2015 Vorträge C: Worte und Laute Mikhail Proskurin, Yuki Washio, Ricardo Gerber
9. 03.06.2015 Vorträge D: Suprasegmentalia Lea Maracke, Lennard Ricken, Robin Müller
10. 10.06.2015 Vorträge E: Spracherkennung Paul Offner, Rafael Heid, Johannes Heise, Johannes Eggert
11. 17.06.2015 Vorträge F: Sprachsynthese Leonard Diekmann, Jakob Giertz, Jan Sengebusch
12. 24.06.2015 Rekapitulation der Vorträge, Verfassen wiss. Arbeiten, slides alle, Timo Baumann
13. 01.07.2015 Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche alle, Timo Baumann
14. 08.07.2015 Aufbau komplexer Systeme, Abschluss alle

  • Ergebnisse der Literaturrecherche (per E-Mail): 20.04.2015.
  • Vorbesprechung des fertig ausgearbeiteten Vortrags und Abgabe der Diskussionspunkte: mindestens 1 Woche vor dem Vortragstermin
  • Abgabe der Kurzfassung und Gliederung: 19.06.2015 03.07.2015 (Rückmeldung bis 08.07.2015)
  • vorläufige Abgabe der Seminararbeit: 30.06.2015 15.08.2015
  • Review über eine Seminararbeit: 07.07.2015 30.08.2015
  • Abgabe der überarbeiteten Seminararbeit: 30.09.2015 (oder früher, wenn Sie den Schein schon zu Beginn des WS 15/16 benötigen

Themengebiete:

Grundlegende Fachliteratur:
  • Pfister, Beat and Tobias Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag. http://link.springer.com/book/10.1007%2F978-3-540-75910-2 (PDF nur aus UHH-Netz erreichbar).
  • Jurafsky, Daniel and James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson International. mehrere Exemplare in der Bibliothek, A JUR 42xxx, ein Präsenzexemplar
  • Taylor, Paul (2009). Text-to-Speech Synthesis. Cambridge Univ Press, 2009. InfBib: A TAY 43070

Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend! Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 20.04.2015 an den Veranstalter! Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 13.04.2015).

A: Sprachsignalrepräsentation

  1. Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Christopher Jarsembinski
  2. psychoakustisch motivierte Signalrepräsentation: Finn Jörgensen
  3. anschauliche Erläuterung wesentlicher Signalverarbeitungsschritte: Connor Gäde

B: Sprachsignalverarbeitung

  1. Sprachsignalmanipulation: Niklas Winkemann
    • Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.
  2. Voice Activity Detection: Jannis Krämer
  3. Geräuschunterdrückung / Noise Cancellation: Maximilian Zierke
    • bei Bedarf
  4. schwierig: Voice-Morphing
    • Ye, Hui and S. Young (2004). "High quality voice morphing". In: Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, 1, pp. I-9-12 vol.1.

C: Worte und Laute

  1. Aussprachemodellierung: Mikhail Proskurin
  2. Morphologie: Yuki Washio
    • Jurafsky & Martin, ch. 3
    • Varjokallio, Matti and Mikko Kurimo (2014). "A word-level token-passing decoder for subword n-gram LVCSR". In: Spoken Language Technology Workshop (SLT), 2014 IEEE, pp. 495-500.
  3. Wortsequenzmodelle: Ricardo Gerber
    • Jurafsky & Martin, ch. 4

D: Suprasegmentalia

  1. Prosodie (Sprechmelodie): Lea Maracke
    • Taylor, ch. 9
  2. Emotion und paralinguistische Phänomene: Lennard Ricken
  3. Fortschritte der Spracherkennung (wachsende Fähigkeiten, wachsende Anforderungen): Robin Müller
    • Literatur auf Anfrage
  4. Übersicht über verfügbare Korpora gesprochener Sprache: ????
    • auf Anfrage

E: Spracherkennung

  1. Mustervergleich mit dynamischer Programmierung: ????
  2. Hidden-Markov-Modelle (HMMs, Nutzung und Training): Paul Offner
    • Pfister & Kaufmann, ch. 5+12
  3. Token-Pass-Algorithmus (Anwendung von HMMs): Rafael Heid
  4. Zero-Ressource Speech Recognition: Johannes Heise
  5. schwierig: Deep Learning in der Spracherkennung: Johannes Eggert
    • Hinton, Geoffrey, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath and others (2012). "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups". In: Signal Processing Magazine, IEEE, 29, pp. 82-9
    • Dong Yu, Li Deng (2014): Automatic Speech Recognition: A Deep Learning Approach, Springer.

F: Sprachsynthese

  1. Unit-Selection Sprachsynthese: Leonard Diekmann
    • Taylor, ch. 14+16
  2. HMM-basierte Sprachsynthese: Jakob Giertz
    • Taylor, ch. 15
    • Tokuda, K., Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura (2013). "Speech Synthesis Based on Hidden Markov Models". In: Proceedings of the IEEE, 101, pp. 1234-1252.
  3. Training eines Spracherkenners mit SphinxTrain:
  4. Training einer Sprachsynthesestimme: Jan Sengebusch
  5. schwierig: Deep Learning in der Sprachsynthese
    • Ling, Z., S. Kang, H. Zen, A. Senior, M. Schuster, X. Qian, H. Meng and L. Deng (2015). "Deep Learning for Acoustic Modeling in Parametric Speech Generation: A systematic review of existing techniques and future trends". In: Signal Processing Magazine, IEEE, 32, pp. 35-52.

Formalia

Leistungsbewertung:

  • 1,5 Leistungspunkte Präsentation:
    • Qualität des Küchenzurufs / Elevator Pitch
    • Präsentationskompetenz
    • inhaltliche Ausarbeitung
    • Ausarbeitung der Diskussionspunkte
    • Gestaltung der Diskussion im Anschluss an den Vortrag
  • 1,5 Leistungspunkte schriftliche Ausarbeitung:
    • Kernbotschaft
    • Kurzfassung und Strukturierung
    • Inhalt der Hausarbeit, Literaturarbeit
    • Rezension einer anderen Arbeit
    • Formale Gestaltung

ungefährer Arbeitsaufwand:

  • aktive Teilnahme (14*1.5h = 21h)
  • thematische Vor- und Nachbereitung (14*1h = 14h)
  • Erarbeitung des Seminarthemas und Literaturarbeit (10h)
  • Erarbeitung der Präsentation (19h)
  • Vorbesprechung der Präsentation (1h)
  • Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
  • Peer-Review (5h)

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback