Proseminar: Verarbeitung gesprochener Sprache
Vorgehensweise:
Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird.
Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.
Termine:
# |
Datum |
Thema |
ggfs. Referenten |
1. |
22.04.2020 |
Einführung, Brainstorming Anwendungsbereiche pdf |
alle |
2. |
29.04.2020 |
Systematisierung und Erschließung eines Phänomenbereichs |
alle, Timo Baumann |
3. |
06.05.2020 |
Aufbau von Sprache; Recherche für ein Thema pdf |
Timo Baumann |
4. |
13.05.2020 |
"Küchenzuruf"; Präsentations-Einmaleins |
alle, Kleingruppen |
5. |
20.05.2020 |
Vorträge A: Sprachsignalrepräsentation |
Moritz, David, Hauke |
6. |
27.05.2020 |
Vorträge B: Sprachsignalverarbeitung |
Florian, Jannis, Ramón |
7. |
03.06.2020 |
-- Pfingstferien, Termin entfällt -- |
alle |
8. |
10.06.2020 |
Vorträge C: Worte und Laute |
Justin, Sophia, Robin |
9. |
17.06.2020 |
Vorträge D: Suprasegmentalia |
Virginia, Jan M., Oliver |
10. |
24.06.2020 |
Vorträge E: Spracherkennung |
Thore, Trung, Lukas, Erik |
11. |
01.07.2020 |
Vorträge F: Sprachsynthese |
Carla, Jan L. & G. |
12. |
08.07.2020 |
Rekapitulation der Vorträge, Verfassen wiss. Arbeiten pdf |
alle |
13. |
15.07.2020 |
Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche pdf |
alle |
Termine:
- Abgabe 3 Themenwünsche: 27.04.2020
- Abgabe der Kurzfassung und Gliederung: 10.07.2020 (Rückmeldung bis 15.07.2020)
- vorläufige Abgabe der fertig ausgearbeiteten Seminararbeit: 30.08.2020 (im Anschluss Verteilung der Arbeiten zum Review)
- Review über eine Seminararbeit: 25.09.2020 (im Anschluss Rückleitung der Reviews)
- Abgabe der überarbeiteten Seminararbeit: 30.10.2020 (oder früher, wenn Sie den Schein schon zu Beginn des WS 20/21 benötigen)
- Eintragung in Stine / Rückgabe der kommentierten Seminararbeiten: 15.01.2021
Themengebiete:
Grundlegende Fachliteratur:
Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend!
Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 06.05.2020 an den Veranstalter!
Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 27.04.2020).
A: Sprachsignalrepräsentation
zur Vorbereitung lesen
alle: Pfister & Kaufmann: Kapitel 3.
- Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Moritz Dwamena Yeboah
- psychoakustisch motivierte Signalrepräsentation: David Kessler
- Deep Learning zur Merkmalsextraktion: Hauke Bünning
B: Sprachsignalverarbeitung
zur Vorbereitung lesen
alle: Pfister & Kaufmann: Kapitel 4.
- Voice Activity Detection: Florian Schleid
- Geräuschunterdrückung & Echokompensation: Jannis Waller
- Sprachsignalmanipulation: Ramón Subiza Ballesteros
- Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.
C: Worte und Laute
- Aussprachemodellierung: Justin Pietsch
- Morphologie: Sophia Jobstvogt
- Creutz, Mathias and Krista Lagus (2002). "Unsupervised Discovery of Morphemes". In: ACL SigPhon Workshop.
- Jurafsky & Martin, ch. 3
- Wortsequenzmodelle: Robin Labryga
- Jurafsky & Martin, 2nd edition, ch. 4 (oder 3rd edition, ch 3),
- Jurafsky & Mrtin, 3rd edition draft, ch. 7.
D: Suprasegmentalia
- Prosodie (Sprechmelodie): Virginia Holness
- Emotion und paralinguistische Phänomene: Jan Mägdefrau
- Eyben, F., M. Wollmer and B. Schuller (2009). "OpenEAR -- Introducing the munich open-source emotion and affect recognition toolkit". In: Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, 2009, pp. 1-6. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5349350 (PDF nur aus UHH-Netz erreichbar).
- Vogt, Thurid, Elisabeth André and Nikolaus Bee (2008). "EmoVoice—A framework for online recognition of emotions from voice". In: Perception in multimodal dialogue systems, Springer, 2008, pp. 188-199. https://www.informatik.uni-augsburg.de/lehrstuehle/hcm/publications/2008-PIT-Vogt/Vogtetal-PIT08.pdf
E: Spracherkennung
- Fortschritte der Spracherkennung und Übersicht über verfügbare Korpora gesprochener Sprache: Oliver Munz
- https://github.com/syhw/wer_are_we
- Moore, Roger K. "A comparison of the data requirements of automatic speech recognition systems and human listeners." Eighth European Conference on Speech Communication and Technology. 2003.
- weitere bitte anfragen
- (Mustervergleich mit dynamischer Programmierung: )
- Hidden-Markov-Modelle (HMMs, Nutzung und Training): Thore Nitz
- Token-Pass-Algorithmus (Anwendung von HMMs): Nguyen Hoang Trung
- Training eines Spracherkenners: Lukas Seifert
- Zero-Ressource Speech Recognition: Erik Brammann
F: Sprachsynthese
zur Vorbereitung lesen
alle:
MaryTTS-Whitepaper
- Unit-Selection Sprachsynthese: Carla Oppermann
- kommt bald
- Taylor, ch. 14+16
- HMM-basierte Sprachsynthese: Jan Lütjen
- Emotion in Sprachsynthesesystemen: Jan Goldmann
Seminararbeiten
Name |
Arbeit |
Reviewer |
Carla |
Unit-selection Synthese |
Virginia, David |
David |
Windowing |
Carla, Erik |
Erik |
??? |
David, Florian |
Florian |
Voice Activity Detection |
Erik, Hauke |
Hauke |
Feature Extraktion |
Florian, Trung |
Trung |
Token-Pass historisch |
Hauke, Janmann |
Jan *mann |
Emotion in der Synthese |
Trung, Janjen |
Jan *jen |
NN-basierte Synthese |
Janmann, Janfrau |
Jan *frau |
Emotionserkennung |
Janjen, Justin |
Justin |
Sprechhilfen |
Janfrau, Lukas |
Lukas |
State Tying |
Justin, Oliver |
Oliver |
ASR XY ungelöst? |
Lukas, Robin |
Robin |
Language Modelling |
Oliver, Sophia |
Sophia |
Subword Units |
Robin, Thore |
Thore |
Laut- oder Wort-basierte ASR |
Sophia, Virginia |
Virginia |
Posthumanismus und Emotion |
Thore, Carla |
Reviewing:
ReviewForm
Formalia
Leistungsbewertung:
- 1,5 Leistungspunkte Präsentation:
- Qualität des Küchenzurufs / Elevator Pitch
- Präsentationskompetenz
- inhaltliche Ausarbeitung
- Ausarbeitung der Diskussionspunkte
- Gestaltung der Diskussion im Anschluss an den Vortrag
- 1,5 Leistungspunkte schriftliche Ausarbeitung:
- Kernbotschaft
- Kurzfassung und Strukturierung
- Inhalt der Hausarbeit, Literaturarbeit
- Rezension einer anderen Arbeit
- Formale Gestaltung
ungefährer Arbeitsaufwand:
- aktive Teilnahme (14*1.5h = 21h)
- thematische Vor- und Nachbereitung (14*1h = 14h)
- Erarbeitung des Seminarthemas und Literaturarbeit (10h)
- Erarbeitung der Präsentation (19h)
- Vorbesprechung der Präsentation (1h)
- Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
- Peer-Review (5h)