Proseminar: Verarbeitung gesprochener Sprache
Vorgehensweise:
Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird.
Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.
Termine:
# |
Datum |
Thema |
ggfs. Referenten |
1. |
01.04.2015 |
Einführung, Brainstorming Anwendungsbereiche |
alle |
2. |
08.04.2015 |
Systematisierung und Erschließung eines Phänomenbereichs |
alle |
3. |
15.04.2015 |
Aufbau von Sprache |
Timo Baumann |
4. |
22.04.2015 |
Präsentations-Einmaleins, Koordination der Vortragsdiskussionen |
alle, Kleingruppen |
5. |
29.04.2015 |
Experiment und Evaluation |
alle, Timo Baumann |
6. |
06.05.2015 |
Vorträge A: Sprachsignalrepräsentation |
Christopher Jarsembinski, Finn Jörgensen, Connor Gäde |
7. |
13.05.2015 |
Vorträge B: Sprachsignalverarbeitung |
Niklas Winkemann, Jannis Krämer, Maximilian Zierke |
8. |
20.05.2015 |
Vorträge C: Worte und Laute |
Mikhail Proskurin, Yuki Washio, Ricardo Gerber |
9. |
03.06.2015 |
Vorträge D: Suprasegmentalia |
Lea Maracke, Lennard Ricken, Robin Müller |
10. |
10.06.2015 |
Vorträge E: Spracherkennung |
Paul Offner, Rafael Heid, Johannes Heise, Johannes Eggert |
11. |
17.06.2015 |
Vorträge F: Sprachsynthese |
Leonard Diekmann, Jakob Giertz, Jan Sengebusch |
12. |
24.06.2015 |
Rekapitulation der Vorträge, Verfassen wiss. Arbeiten, slides |
alle, Timo Baumann |
13. |
01.07.2015 |
Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche |
alle, Timo Baumann |
14. |
08.07.2015 |
Aufbau komplexer Systeme, Abschluss |
alle |
- Ergebnisse der Literaturrecherche (per E-Mail): 20.04.2015.
- Vorbesprechung des fertig ausgearbeiteten Vortrags und Abgabe der Diskussionspunkte: mindestens 1 Woche vor dem Vortragstermin
- Abgabe der Kurzfassung und Gliederung:
19.06.2015 03.07.2015 (Rückmeldung bis 08.07.2015)
- vorläufige Abgabe der Seminararbeit:
30.06.2015 15.08.2015
- Review über eine Seminararbeit:
07.07.2015 30.08.2015
- Abgabe der überarbeiteten Seminararbeit: 30.09.2015 (oder früher, wenn Sie den Schein schon zu Beginn des WS 15/16 benötigen
Themengebiete:
Grundlegende Fachliteratur:
- Pfister, Beat and Tobias Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag. http://link.springer.com/book/10.1007%2F978-3-540-75910-2 (PDF nur aus UHH-Netz erreichbar).
- Jurafsky, Daniel and James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson International. mehrere Exemplare in der Bibliothek, A JUR 42xxx, ein Präsenzexemplar
- Taylor, Paul (2009). Text-to-Speech Synthesis. Cambridge Univ Press, 2009. InfBib: A TAY 43070
Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend!
Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 20.04.2015 an den Veranstalter!
Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 13.04.2015).
A: Sprachsignalrepräsentation
- Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Christopher Jarsembinski
- psychoakustisch motivierte Signalrepräsentation: Finn Jörgensen
- anschauliche Erläuterung wesentlicher Signalverarbeitungsschritte: Connor Gäde
B: Sprachsignalverarbeitung
- Sprachsignalmanipulation: Niklas Winkemann
- Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.
- Voice Activity Detection: Jannis Krämer
- Geräuschunterdrückung / Noise Cancellation: Maximilian Zierke
- schwierig: Voice-Morphing
- Ye, Hui and S. Young (2004). "High quality voice morphing". In: Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, 1, pp. I-9-12 vol.1.
C: Worte und Laute
- Aussprachemodellierung: Mikhail Proskurin
- Morphologie: Yuki Washio
- Jurafsky & Martin, ch. 3
- Varjokallio, Matti and Mikko Kurimo (2014). "A word-level token-passing decoder for subword n-gram LVCSR". In: Spoken Language Technology Workshop (SLT), 2014 IEEE, pp. 495-500.
- Wortsequenzmodelle: Ricardo Gerber
D: Suprasegmentalia
- Prosodie (Sprechmelodie): Lea Maracke
- Emotion und paralinguistische Phänomene: Lennard Ricken
- Eyben, F., M. Wollmer and B. Schuller (2009). "OpenEAR -- Introducing the munich open-source emotion and affect recognition toolkit". In: Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, 2009, pp. 1-6. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5349350 (PDF nur aus UHH-Netz erreichbar).
- Vogt, Thurid, Elisabeth André and Nikolaus Bee (2008). "EmoVoice—A framework for online recognition of emotions from voice". In: Perception in multimodal dialogue systems, Springer, 2008, pp. 188-199. https://www.informatik.uni-augsburg.de/lehrstuehle/hcm/publications/2008-PIT-Vogt/Vogtetal-PIT08.pdf
- Fortschritte der Spracherkennung (wachsende Fähigkeiten, wachsende Anforderungen): Robin Müller
- Übersicht über verfügbare Korpora gesprochener Sprache: ????
E: Spracherkennung
- Mustervergleich mit dynamischer Programmierung: ????
- Hidden-Markov-Modelle (HMMs, Nutzung und Training): Paul Offner
- Pfister & Kaufmann, ch. 5+12
- Token-Pass-Algorithmus (Anwendung von HMMs): Rafael Heid
- Zero-Ressource Speech Recognition: Johannes Heise
- schwierig: Deep Learning in der Spracherkennung: Johannes Eggert
- Hinton, Geoffrey, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath and others (2012). "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups". In: Signal Processing Magazine, IEEE, 29, pp. 82-9
- Dong Yu, Li Deng (2014): Automatic Speech Recognition: A Deep Learning Approach, Springer.
F: Sprachsynthese
- Unit-Selection Sprachsynthese: Leonard Diekmann
- HMM-basierte Sprachsynthese: Jakob Giertz
- Taylor, ch. 15
- Tokuda, K., Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura (2013). "Speech Synthesis Based on Hidden Markov Models". In: Proceedings of the IEEE, 101, pp. 1234-1252.
- Training eines Spracherkenners mit SphinxTrain:
- Training einer Sprachsynthesestimme: Jan Sengebusch
- schwierig: Deep Learning in der Sprachsynthese
- Ling, Z., S. Kang, H. Zen, A. Senior, M. Schuster, X. Qian, H. Meng and L. Deng (2015). "Deep Learning for Acoustic Modeling in Parametric Speech Generation: A systematic review of existing techniques and future trends". In: Signal Processing Magazine, IEEE, 32, pp. 35-52.
Formalia
Leistungsbewertung:
- 1,5 Leistungspunkte Präsentation:
- Qualität des Küchenzurufs / Elevator Pitch
- Präsentationskompetenz
- inhaltliche Ausarbeitung
- Ausarbeitung der Diskussionspunkte
- Gestaltung der Diskussion im Anschluss an den Vortrag
- 1,5 Leistungspunkte schriftliche Ausarbeitung:
- Kernbotschaft
- Kurzfassung und Strukturierung
- Inhalt der Hausarbeit, Literaturarbeit
- Rezension einer anderen Arbeit
- Formale Gestaltung
ungefährer Arbeitsaufwand:
- aktive Teilnahme (14*1.5h = 21h)
- thematische Vor- und Nachbereitung (14*1h = 14h)
- Erarbeitung des Seminarthemas und Literaturarbeit (10h)
- Erarbeitung der Präsentation (19h)
- Vorbesprechung der Präsentation (1h)
- Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
- Peer-Review (5h)