Proseminar: Verarbeitung gesprochener Sprache

Vorgehensweise:

Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird. Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.

Termine:

#Sorted ascending Datum Thema ggfs. Referenten
1. 22.04.2020 Einführung, Brainstorming Anwendungsbereiche pdf alle
2. 29.04.2020 Systematisierung und Erschließung eines Phänomenbereichs alle, Timo Baumann
3. 06.05.2020 Aufbau von Sprache; Recherche für ein Thema pdf Timo Baumann
4. 13.05.2020 "Küchenzuruf"; Präsentations-Einmaleins alle, Kleingruppen
5. 20.05.2020 Vorträge A: Sprachsignalrepräsentation Moritz, David, Hauke
6. 27.05.2020 Vorträge B: Sprachsignalverarbeitung Florian, Jannis, Ramón
7. 03.06.2020 -- Pfingstferien, Termin entfällt -- alle
8. 10.06.2020 Vorträge C: Worte und Laute Justin, Sophia, Robin
9. 17.06.2020 Vorträge D: Suprasegmentalia Virginia, Jan M., Oliver
10. 24.06.2020 Vorträge E: Spracherkennung Thore, Trung, Lukas, Erik
11. 01.07.2020 Vorträge F: Sprachsynthese Carla, Jan L. & G.
12. 08.07.2020 Rekapitulation der Vorträge, Verfassen wiss. Arbeiten pdf alle
13. 15.07.2020 Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche pdf alle

Termine:

  • Abgabe 3 Themenwünsche: 27.04.2020
  • Abgabe der Kurzfassung und Gliederung: 10.07.2020 (Rückmeldung bis 15.07.2020)
  • vorläufige Abgabe der fertig ausgearbeiteten Seminararbeit: 30.08.2020 (im Anschluss Verteilung der Arbeiten zum Review)
  • Review über eine Seminararbeit: 25.09.2020 (im Anschluss Rückleitung der Reviews)
  • Abgabe der überarbeiteten Seminararbeit: 30.10.2020 (oder früher, wenn Sie den Schein schon zu Beginn des WS 20/21 benötigen)
  • Eintragung in Stine / Rückgabe der kommentierten Seminararbeiten: 15.01.2021

Themengebiete:

Grundlegende Fachliteratur:

Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend! Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 06.05.2020 an den Veranstalter! Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 27.04.2020).

A: Sprachsignalrepräsentation

zur Vorbereitung lesen alle: Pfister & Kaufmann: Kapitel 3.

  1. Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Moritz Dwamena Yeboah
  2. psychoakustisch motivierte Signalrepräsentation: David Kessler
  3. Deep Learning zur Merkmalsextraktion: Hauke Bünning

B: Sprachsignalverarbeitung

zur Vorbereitung lesen alle: Pfister & Kaufmann: Kapitel 4.

  1. Voice Activity Detection: Florian Schleid
  2. Geräuschunterdrückung & Echokompensation: Jannis Waller
  3. Sprachsignalmanipulation: Ramón Subiza Ballesteros
    • Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.

C: Worte und Laute

  1. Aussprachemodellierung: Justin Pietsch
  2. Morphologie: Sophia Jobstvogt
    • Creutz, Mathias and Krista Lagus (2002). "Unsupervised Discovery of Morphemes". In: ACL SigPhon Workshop.
    • Jurafsky & Martin, ch. 3
  1. Wortsequenzmodelle: Robin Labryga
    • Jurafsky & Martin, 2nd edition, ch. 4 (oder 3rd edition, ch 3),
    • Jurafsky & Mrtin, 3rd edition draft, ch. 7.

D: Suprasegmentalia

  1. Prosodie (Sprechmelodie): Virginia Holness
  2. Emotion und paralinguistische Phänomene: Jan Mägdefrau

E: Spracherkennung

  1. Fortschritte der Spracherkennung und Übersicht über verfügbare Korpora gesprochener Sprache: Oliver Munz
    • https://github.com/syhw/wer_are_we
    • Moore, Roger K. "A comparison of the data requirements of automatic speech recognition systems and human listeners." Eighth European Conference on Speech Communication and Technology. 2003.
    • weitere bitte anfragen
  2. (Mustervergleich mit dynamischer Programmierung: )
  3. Hidden-Markov-Modelle (HMMs, Nutzung und Training): Thore Nitz
  4. Token-Pass-Algorithmus (Anwendung von HMMs): Nguyen Hoang Trung
  5. Training eines Spracherkenners: Lukas Seifert
  6. Zero-Ressource Speech Recognition: Erik Brammann

F: Sprachsynthese

zur Vorbereitung lesen alle: MaryTTS-Whitepaper

  1. Unit-Selection Sprachsynthese: Carla Oppermann
    • kommt bald
    • Taylor, ch. 14+16
  2. HMM-basierte Sprachsynthese: Jan Lütjen
  3. Emotion in Sprachsynthesesystemen: Jan Goldmann

Seminararbeiten

Name Arbeit Reviewer
Carla Unit-selection Synthese Virginia, David
David Windowing Carla, Erik
Erik ??? David, Florian
Florian Voice Activity Detection Erik, Hauke
Hauke Feature Extraktion Florian, Trung
Trung Token-Pass historisch Hauke, Janmann
Jan *mann Emotion in der Synthese Trung, Janjen
Jan *jen NN-basierte Synthese Janmann, Janfrau
Jan *frau Emotionserkennung Janjen, Justin
Justin Sprechhilfen Janfrau, Lukas
Lukas State Tying Justin, Oliver
Oliver ASR XY ungelöst? Lukas, Robin
Robin Language Modelling Oliver, Sophia
Sophia Subword Units Robin, Thore
Thore Laut- oder Wort-basierte ASR Sophia, Virginia
Virginia Posthumanismus und Emotion Thore, Carla

Reviewing:

ReviewForm

Formalia

Leistungsbewertung:

  • 1,5 Leistungspunkte Präsentation:
    • Qualität des Küchenzurufs / Elevator Pitch
    • Präsentationskompetenz
    • inhaltliche Ausarbeitung
    • Ausarbeitung der Diskussionspunkte
    • Gestaltung der Diskussion im Anschluss an den Vortrag
  • 1,5 Leistungspunkte schriftliche Ausarbeitung:
    • Kernbotschaft
    • Kurzfassung und Strukturierung
    • Inhalt der Hausarbeit, Literaturarbeit
    • Rezension einer anderen Arbeit
    • Formale Gestaltung

ungefährer Arbeitsaufwand:

  • aktive Teilnahme (14*1.5h = 21h)
  • thematische Vor- und Nachbereitung (14*1h = 14h)
  • Erarbeitung des Seminarthemas und Literaturarbeit (10h)
  • Erarbeitung der Präsentation (19h)
  • Vorbesprechung der Präsentation (1h)
  • Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
  • Peer-Review (5h)

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback