Proseminar: Verarbeitung gesprochener Sprache

Vorgehensweise:

Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird. Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.

Termine:

# Datum Thema ggfs. Referenten
1. 03.04.2019 Einführung, Brainstorming Anwendungsbereiche alle
2. 10.04.2019 Systematisierung und Erschließung eines Phänomenbereichs alle
3. 17.04.2019 Aufbau von Sprache Timo Baumann
4. 24.04.2019 Präsentations-Einmaleins, Koordination der Vortragsdiskussionen alle, Kleingruppen
5. 01.05.2019 frei alle
6. 08.05.2019 Vorträge A: Sprachsignalrepräsentation Theo, Timo
7. 15.05.2019 Vorträge B: Sprachsignalverarbeitung Nathanael, Benjamin, David
8. 22.05.2019 Vorträge B': Sprachsignalmanipulaiton Vincent, Dustin
8. 29.05.2019 Vorträge C: Worte und Laute Patrick, Marvin
9. 05.06.2019 Vorträge D+F: Suprasegmentalia und Sprachsynthese  
10. 12.06.2019 Pfingstferien  
11. 19.06.2019 Vorträge E: Spracherkennung  
12. 26.06.2019 Rekapitulation der Vorträge, Verfassen wiss. Arbeiten, slides alle, Timo Baumann
13. 03.07.2019 Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche alle, Timo Baumann
14. 10.07.2019 fällt aus (Hausaufgaben siehe unten!) alle

Termine:

  • Abgabe der Kurzfassung und Gliederung: 10.07.2019 (Rückmeldung bis 15.07.2019)
  • vorläufige Abgabe der fertig ausgearbeiteten Seminararbeit: 15.08.2019 (im Anschluss Verteilung der Arbeiten zum Review)
  • Review über eine Seminararbeit: 30.08.2019 (im Anschluss Rückleitung der Reviews)
  • Abgabe der überarbeiteten Seminararbeit: 30.09.2019 (oder früher, wenn Sie den Schein schon zu Beginn des WS 19/20 benötigen

Themengebiete:

Grundlegende Fachliteratur:
  • Pfister, Beat and Tobias Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag. http://link.springer.com/book/10.1007%2F978-3-540-75910-2 (PDF nur aus UHH-Netz erreichbar).
  • Jurafsky, Daniel and James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson International. mehrere Exemplare in der Bibliothek, A JUR 42xxx, ein Präsenzexemplar
  • Taylor, Paul (2009). Text-to-Speech Synthesis. Cambridge Univ Press, 2009. InfBib: A TAY 43070

Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend! Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 22.04.2019 an den Veranstalter! Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 15.04.2019).

A: Sprachsignalrepräsentation

  1. Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Theo Steiner
  2. psychoakustisch motivierte Signalrepräsentation: Nathanael Strauß
  1. Deep Learning zur Merkmalsextraktion: entfällt (wahrscheinlich)

B: Sprachsignalverarbeitung

  1. Voice Activity Detection: Benjamin Hosseini
  2. Geräuschunterdrückung / Noise Cancellation: David Tran
    • bei Bedarf
  3. Sprachsignalmanipulation: Vincent Urbisch
    • Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.
  4. schwierig: Voice-Morphing: Dustin Reschke
    • Ye, Hui and S. Young (2004). "High quality voice morphing". In: Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on, 1, pp. I-9-12 vol.1.

C: Worte und Laute

  1. Aussprachemodellierung: entfällt
  2. Morphologie: Patrick Mohr
    • Jurafsky & Martin, ch. 3
    • Varjokallio, Matti and Mikko Kurimo (2014). "A word-level token-passing decoder for subword n-gram LVCSR". In: Spoken Language Technology Workshop (SLT), 2014 IEEE, pp. 495-500.
  3. Wortsequenzmodelle: Marvin Brendel
    • Jurafsky & Martin, ch. 4

D: Suprasegmentalia

  1. Prosodie (Sprechmelodie): Sarah Guy
    • Taylor, ch. 9
  2. Emotion und paralinguistische Phänomene: Benedikt Schink

F: Sprachsynthese

  1. Unit-Selection Sprachsynthese: Fabian Schiemann
    • Taylor, ch. 14+16
  2. HMM-basierte Sprachsynthese: Gerrit Schwitalla
    • Taylor, ch. 15
    • Tokuda, K., Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura (2013). "Speech Synthesis Based on Hidden Markov Models". In: Proceedings of the IEEE, 101, pp. 1234-1252.

E: Spracherkennung

  1. Fortschritte der Spracherkennung und Übersicht über verfügbare Korpora gesprochener Sprache: Alonso Glao
    • https://github.com/syhw/wer_are_we
    • Moore, Roger K. "A comparison of the data requirements of automatic speech recognition systems and human listeners." Eighth European Conference on Speech Communication and Technology. 2003.
    • weitere auf Anfrage.
  2. Mustervergleich mit dynamischer Programmierung: Daniel Heckert
  3. Hidden-Markov-Modelle (HMMs, Nutzung und Training): Sören Sengelmann
  4. Token-Pass-Algorithmus (Anwendung von HMMs): Lukas Heinsohn
  5. Training eines Spracherkenners: Marco Griese

Formalia

Leistungsbewertung:

  • 1,5 Leistungspunkte Präsentation:
    • Qualität des Küchenzurufs / Elevator Pitch
    • Präsentationskompetenz
    • inhaltliche Ausarbeitung
    • Ausarbeitung der Diskussionspunkte
    • Gestaltung der Diskussion im Anschluss an den Vortrag
  • 1,5 Leistungspunkte schriftliche Ausarbeitung:
    • Kernbotschaft
    • Kurzfassung und Strukturierung
    • Inhalt der Hausarbeit, Literaturarbeit
    • Rezension einer anderen Arbeit
    • Formale Gestaltung

ungefährer Arbeitsaufwand:

  • aktive Teilnahme (14*1.5h = 21h)
  • thematische Vor- und Nachbereitung (14*1h = 14h)
  • Erarbeitung des Seminarthemas und Literaturarbeit (10h)
  • Erarbeitung der Präsentation (19h)
  • Vorbesprechung der Präsentation (1h)
  • Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
  • Peer-Review (5h)

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback