Proseminar: Verarbeitung gesprochener Sprache
Vorgehensweise:
Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird.
Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.
Termine:
# |
Datum |
Thema |
ggfs. Referenten |
1. |
03.04.2019 |
Einführung, Brainstorming Anwendungsbereiche |
alle |
2. |
10.04.2019 |
Systematisierung und Erschließung eines Phänomenbereichs |
alle |
3. |
17.04.2019 |
Aufbau von Sprache |
Timo Baumann |
4. |
24.04.2019 |
Präsentations-Einmaleins, Koordination der Vortragsdiskussionen |
alle, Kleingruppen |
5. |
01.05.2019 |
frei |
alle |
6. |
08.05.2019 |
Vorträge A: Sprachsignalrepräsentation |
Theo, Timo |
7. |
15.05.2019 |
Vorträge B: Sprachsignalverarbeitung |
Nathanael, Benjamin, David |
8. |
22.05.2019 |
Vorträge B': Sprachsignalmanipulaiton |
Vincent, Dustin |
8. |
29.05.2019 |
Vorträge C: Worte und Laute |
Patrick, Marvin |
9. |
05.06.2019 |
Vorträge D+F: Suprasegmentalia und Sprachsynthese |
|
10. |
12.06.2019 |
Pfingstferien |
|
11. |
19.06.2019 |
Vorträge E: Spracherkennung |
|
12. |
26.06.2019 |
Rekapitulation der Vorträge, Verfassen wiss. Arbeiten, slides |
alle, Timo Baumann |
13. |
03.07.2019 |
Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche |
alle, Timo Baumann |
14. |
10.07.2019 |
fällt aus (Hausaufgaben siehe unten!) |
alle |
Termine:
- Abgabe der Kurzfassung und Gliederung: 10.07.2019 (Rückmeldung bis 15.07.2019)
- vorläufige Abgabe der fertig ausgearbeiteten Seminararbeit: 15.08.2019 (im Anschluss Verteilung der Arbeiten zum Review)
- Review über eine Seminararbeit: 30.08.2019 (im Anschluss Rückleitung der Reviews)
- Abgabe der überarbeiteten Seminararbeit: 30.09.2019 (oder früher, wenn Sie den Schein schon zu Beginn des WS 19/20 benötigen
Themengebiete:
Grundlegende Fachliteratur:
- Pfister, Beat and Tobias Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag. http://link.springer.com/book/10.1007%2F978-3-540-75910-2 (PDF nur aus UHH-Netz erreichbar).
- Jurafsky, Daniel and James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson International. mehrere Exemplare in der Bibliothek, A JUR 42xxx, ein Präsenzexemplar
- Taylor, Paul (2009). Text-to-Speech Synthesis. Cambridge Univ Press, 2009. InfBib: A TAY 43070
Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend!
Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 22.04.2019 an den Veranstalter!
Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 15.04.2019).
A: Sprachsignalrepräsentation
- Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Theo Steiner
- psychoakustisch motivierte Signalrepräsentation: Nathanael Strauß
- Deep Learning zur Merkmalsextraktion: entfällt (wahrscheinlich)
B: Sprachsignalverarbeitung
- Voice Activity Detection: Benjamin Hosseini
- Geräuschunterdrückung / Noise Cancellation: David Tran
- Sprachsignalmanipulation: Vincent Urbisch
- Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.
- schwierig: Voice-Morphing: Dustin Reschke
- Ye, Hui and S. Young (2004). "High quality voice morphing". In: Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, 1, pp. I-9-12 vol.1.
C: Worte und Laute
- Aussprachemodellierung: entfällt
- Morphologie: Patrick Mohr
- Jurafsky & Martin, ch. 3
- Varjokallio, Matti and Mikko Kurimo (2014). "A word-level token-passing decoder for subword n-gram LVCSR". In: Spoken Language Technology Workshop (SLT), 2014 IEEE, pp. 495-500.
- Wortsequenzmodelle: Marvin Brendel
D: Suprasegmentalia
- Prosodie (Sprechmelodie): Sarah Guy
- Emotion und paralinguistische Phänomene: Benedikt Schink
- Eyben, F., M. Wollmer and B. Schuller (2009). "OpenEAR -- Introducing the munich open-source emotion and affect recognition toolkit". In: Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, 2009, pp. 1-6. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5349350 (PDF nur aus UHH-Netz erreichbar).
- Vogt, Thurid, Elisabeth André and Nikolaus Bee (2008). "EmoVoice—A framework for online recognition of emotions from voice". In: Perception in multimodal dialogue systems, Springer, 2008, pp. 188-199. https://www.informatik.uni-augsburg.de/lehrstuehle/hcm/publications/2008-PIT-Vogt/Vogtetal-PIT08.pdf
F: Sprachsynthese
- Unit-Selection Sprachsynthese: Fabian Schiemann
- HMM-basierte Sprachsynthese: Gerrit Schwitalla
- Taylor, ch. 15
- Tokuda, K., Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura (2013). "Speech Synthesis Based on Hidden Markov Models". In: Proceedings of the IEEE, 101, pp. 1234-1252.
E: Spracherkennung
- Fortschritte der Spracherkennung und Übersicht über verfügbare Korpora gesprochener Sprache: Alonso Glao
- https://github.com/syhw/wer_are_we
- Moore, Roger K. "A comparison of the data requirements of automatic speech recognition systems and human listeners." Eighth European Conference on Speech Communication and Technology. 2003.
- weitere auf Anfrage.
- Mustervergleich mit dynamischer Programmierung: Daniel Heckert
- Hidden-Markov-Modelle (HMMs, Nutzung und Training): Sören Sengelmann
- Token-Pass-Algorithmus (Anwendung von HMMs): Lukas Heinsohn
- Training eines Spracherkenners: Marco Griese
Formalia
Leistungsbewertung:
- 1,5 Leistungspunkte Präsentation:
- Qualität des Küchenzurufs / Elevator Pitch
- Präsentationskompetenz
- inhaltliche Ausarbeitung
- Ausarbeitung der Diskussionspunkte
- Gestaltung der Diskussion im Anschluss an den Vortrag
- 1,5 Leistungspunkte schriftliche Ausarbeitung:
- Kernbotschaft
- Kurzfassung und Strukturierung
- Inhalt der Hausarbeit, Literaturarbeit
- Rezension einer anderen Arbeit
- Formale Gestaltung
ungefährer Arbeitsaufwand:
- aktive Teilnahme (14*1.5h = 21h)
- thematische Vor- und Nachbereitung (14*1h = 14h)
- Erarbeitung des Seminarthemas und Literaturarbeit (10h)
- Erarbeitung der Präsentation (19h)
- Vorbesprechung der Präsentation (1h)
- Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
- Peer-Review (5h)