UHH>Informatik>NatS>VGS20 Web>WebHome (18 Sep 2020, TimoBaumann) Print version

Proseminar: Verarbeitung gesprochener Sprache

Veranstalter: Timo Baumann E-Mail: baumann@inf...
Sommersemester 2020
Mi 10-12, BBB -> siehe Stine-Nachricht für den Link
Veranstaltungsbeschreibung in Stine

Vorgehensweise:

Die Fachvortragstermine (A-E) gliedern sich in 2-3 Vorträge zu verwandten Themen und eine anschließende Diskussion die von den jeweiligen Vortragenden gemeinsam moderiert wird. Die übrigen Termine gestaltet der Veranstalter, einerseits mit Fachvorträgen (als Beispiel wie man es machen kann), andererseits mit vorbereitenden Übungen zur Bearbeitung und Diskussionen zum Thema, auch mit Kleingruppenarbeit.

Termine:

#	Datum	Thema	ggfs. Referenten
1.	22.04.2020	Einführung, Brainstorming Anwendungsbereiche pdf	alle
2.	29.04.2020	Systematisierung und Erschließung eines Phänomenbereichs	alle, Timo Baumann
3.	06.05.2020	Aufbau von Sprache; Recherche für ein Thema pdf	Timo Baumann
4.	13.05.2020	"Küchenzuruf"; Präsentations-Einmaleins	alle, Kleingruppen
5.	20.05.2020	Vorträge A: Sprachsignalrepräsentation	Moritz, David, Hauke
6.	27.05.2020	Vorträge B: Sprachsignalverarbeitung	Florian, Jannis, Ramón
7.	03.06.2020	-- Pfingstferien, Termin entfällt --	alle
8.	10.06.2020	Vorträge C: Worte und Laute	Justin, Sophia, Robin
9.	17.06.2020	Vorträge D: Suprasegmentalia	Virginia, Jan M., Oliver
10.	24.06.2020	Vorträge E: Spracherkennung	Thore, Trung, Lukas, Erik
11.	01.07.2020	Vorträge F: Sprachsynthese	Carla, Jan L. & G.
12.	08.07.2020	Rekapitulation der Vorträge, Verfassen wiss. Arbeiten pdf	alle
13.	15.07.2020	Literaturangaben und -belege, Rückbesinnung auf Anwendungsbereiche pdf	alle

Termine:

Abgabe 3 Themenwünsche: 27.04.2020
Abgabe der Kurzfassung und Gliederung: 10.07.2020 (Rückmeldung bis 15.07.2020)
vorläufige Abgabe der fertig ausgearbeiteten Seminararbeit: 30.08.2020 (im Anschluss Verteilung der Arbeiten zum Review)
Review über eine Seminararbeit: 25.09.2020 (im Anschluss Rückleitung der Reviews)
Abgabe der überarbeiteten Seminararbeit: 30.10.2020 (oder früher, wenn Sie den Schein schon zu Beginn des WS 20/21 benötigen)
Eintragung in Stine / Rückgabe der kommentierten Seminararbeiten: 15.01.2021

Themengebiete:

Grundlegende Fachliteratur:

Pfister, Beat and Tobias Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag. http://link.springer.com/book/10.1007%2F978-3-540-75910-2 (PDF nur aus UHH-Netz erreichbar).
Jurafsky, Daniel and James H. Martin (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson International. mehrere Exemplare in der Bibliothek, A JUR 42xxx, ein Präsenzexemplar. Siehe auch hier.
Taylor, Paul (2009). Text-to-Speech Synthesis. Cambridge Univ Press, 2009. InfBib: A TAY 43070 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.118.5905&rep=rep1&type=pdf

Die zu den einzelnen Themen angegebene Literatur ist zunächst nur ein Vorschlag und nicht abschließend! Recherchieren Sie bitte frühzeitig weitere Literatur und senden Sie Ihre Literaturauswahl (mit Begründung) bis zum 06.05.2020 an den Veranstalter! Haben Sie eigene Themenvorschläge? Sprechen Sie mich an (bis zum 27.04.2020).

A: Sprachsignalrepräsentation

zur Vorbereitung lesen alle: Pfister & Kaufmann: Kapitel 3.

Digitale Signalverarbeitung, Extraktion einer Grundfrequenz: Moritz Dwamena Yeboah
- de Cheveigné, Alain and Hideki Kawahara (2002). "YIN, a fundamental frequency estimator for speech and music". In: Journal of the Acoustical Society of America, 111(4), pp. 1917-1930. http://www.cs.tut.fi/~digaudio/htyo/lahteet/2002_JASA_YIN.pdf
psychoakustisch motivierte Signalrepräsentation: David Kessler
- Kim, Chanwoo and Richard M. Stern (2014). "Power-Normalized Cepstral Coefficients for Robust Speech Recognition". In: IEEE Transactions on Audio, Speech, and Language Processing. http://www.cs.cmu.edu/afs/cs.cmu.edu/user/robust/www/Papers/OnlinePNCC_V25.pdf
- siehe auch Pfister & Kaufmann: Kapitel 4.
Deep Learning zur Merkmalsextraktion: Hauke Bünning
- Grezl, Frantisek, and Petr Fousek. "Optimizing bottle-neck features for LVCSR." 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2008. https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=4518713 (aus dem Informatik-Netz)

B: Sprachsignalverarbeitung

zur Vorbereitung lesen alle: Pfister & Kaufmann: Kapitel 4.

Voice Activity Detection: Florian Schleid
- Mak, Man-Wai and Hon-Bill Yu (2014). "A study of voice activity detection techniques for NIST speaker recognition evaluations". In: Computer Speech & Language, 28, pp. 295 - 313. http://www.sciencedirect.com/science/article/pii/S0885230813000533 (PDF nur aus UHH-Netz erreichbar).
- Ramirez, Javier, Juan M. Górriz and José C. Segura (2007). Voice activity detection. fundamentals and speech recognition system robustness. INTECH Open Access Publisher, 2007. http://cdn.intechopen.com/pdfs/104/InTech-Voice_activity_detection_fundamentals_and_speech_recognition_system_robustness.pdf
Geräuschunterdrückung & Echokompensation: Jannis Waller
- Gerhard Schmidt (2004): "Applications of acoustic echo control - An overview". In: Proceedings of the 12th European Signal Processing Conference (EUSIPCO), Vienna, Austria. https://ieeexplore.ieee.org/document/7079743
- mehr Hintergrund in einem Handbuchkapitel: Kellermann W. (2008) "Echo Cancellation". In: Havelock D., Kuwano S., Vorländer M. (eds) Handbook of Signal Processing in Acoustics. Springer. https://link.springer.com/chapter/10.1007%2F978-0-387-30441-0_46
Sprachsignalmanipulation: Ramón Subiza Ballesteros
- Charpentier, F. and M. Stella (1986). "Diphone synthesis using an overlap-add technique for speech waveforms concatenation". In: Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 11, pp. 2015-2018.

C: Worte und Laute

Aussprachemodellierung: Justin Pietsch
- Bisani, Maximilian and Hermann Ney (2008). "Joint-sequence models for grapheme-to-phoneme conversion". In: Speech Communication, 50, pp. 434 - 451. https://hal.archives-ouvertes.fr/hal-00499203/document
Morphologie: Sophia Jobstvogt
- Creutz, Mathias and Krista Lagus (2002). "Unsupervised Discovery of Morphemes". In: ACL SigPhon Workshop.
- Jurafsky & Martin, ch. 3

Wortsequenzmodelle: Robin Labryga
- Jurafsky & Martin, 2nd edition, ch. 4 (oder 3rd edition, ch 3),
- Jurafsky & Mrtin, 3rd edition draft, ch. 7.

D: Suprasegmentalia

Prosodie (Sprechmelodie): Virginia Holness
- Rosenberg, A. (2010). Autobi-a tool for automatic tobi annotation. In Eleventh Annual Conference of the International Speech Communication Association. https://www.isca-speech.org/archive/archive_papers/interspeech_2010/i10_0146.pdf
- Grice, M. & S. Baumann (2002). Deutsche Intonation und GToBI. Linguistische Berichte 191. 267-298. http://www.coli.uni-saarland.de/publikationen/softcopies/Grice:2002:DIG.pdf
- Taylor, ch. 9
Emotion und paralinguistische Phänomene: Jan Mägdefrau
- Eyben, F., M. Wollmer and B. Schuller (2009). "OpenEAR -- Introducing the munich open-source emotion and affect recognition toolkit". In: Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, 2009, pp. 1-6. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5349350 (PDF nur aus UHH-Netz erreichbar).
- Vogt, Thurid, Elisabeth André and Nikolaus Bee (2008). "EmoVoice—A framework for online recognition of emotions from voice". In: Perception in multimodal dialogue systems, Springer, 2008, pp. 188-199. https://www.informatik.uni-augsburg.de/lehrstuehle/hcm/publications/2008-PIT-Vogt/Vogtetal-PIT08.pdf

E: Spracherkennung

Fortschritte der Spracherkennung und Übersicht über verfügbare Korpora gesprochener Sprache: Oliver Munz
- https://github.com/syhw/wer_are_we
- Moore, Roger K. "A comparison of the data requirements of automatic speech recognition systems and human listeners." Eighth European Conference on Speech Communication and Technology. 2003.
- weitere bitte anfragen
(Mustervergleich mit dynamischer Programmierung: )
- http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=54526 (PDF nur aus UHH-Netz erreichbar).
- Pfister & Kaufmann, ch. 11
Hidden-Markov-Modelle (HMMs, Nutzung und Training): Thore Nitz
- Pfister & Kaufmann, ch. 5+12
- https://pdfs.semanticscholar.org/7d06/0fc04306580d8693e1335caf4c37ad83357b.pdf (Sphinx4 Whitepaper)
Token-Pass-Algorithmus (Anwendung von HMMs): Nguyen Hoang Trung
- Young, Steve J., NH Russell and JHS Thornton (1989). "Token Passing: A Simple Conceptual Model for Connected Speech Recognition Systems". Cambridge University Engineering Department, 1989, 38. http://svr-www.eng.cam.ac.uk/reports/svr-ftp/young_tr38.ps.Z
- https://pdfs.semanticscholar.org/7d06/0fc04306580d8693e1335caf4c37ad83357b.pdf (Sphinx4 Whitepaper)
Training eines Spracherkenners: Lukas Seifert
- SphinxTrain: http://sourceforge.net/projects/cmusphinx/files/sphinxtrain/ , http://www.speech.cs.cmu.edu/sphinxman/
Zero-Ressource Speech Recognition: Erik Brammann
- kommt bald, sowie:
- https://www.clsp.jhu.edu/workshops/12-workshop/

F: Sprachsynthese

zur Vorbereitung lesen alle: MaryTTS-Whitepaper

Unit-Selection Sprachsynthese: Carla Oppermann
- kommt bald
- Taylor, ch. 14+16
HMM-basierte Sprachsynthese: Jan Lütjen
- Tokuda, K., Y. Nankaku, T. Toda, H. Zen, J. Yamagishi and K. Oura (2013). "Speech Synthesis Based on Hidden Markov Models". In: Proceedings of the IEEE, 101, pp. 1234-1252. http://ce.sharif.edu/courses/97-98/2/ce967-1/resources/root/Papers/Tokuda-2013-HMM%20Synthesis.pdf
- Taylor, ch. 15
Emotion in Sprachsynthesesystemen: Jan Goldmann
- Schröder, M. (2004). "Dimensional emotion representation as a basis for speech synthesis with non-extreme emotions". In: Tutorial and research workshop on affective dialogue systems, pp. 209-220. Springer, Berlin, Heidelberg. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.2.3378&rep=rep1&type=pdf
- Schröder, M. et al. (2001). "Acoustic correlates of emotion dimensions in view of speech synthesis." In: Seventh European Conference on Speech Communication and Technology. http://www.coli.uni-saarland.de/publikationen/softcopies/Schroder:2001:ACE.pdf

Seminararbeiten

Name	Arbeit	Reviewer
Carla	Unit-selection Synthese	Virginia, David
David	Windowing	Carla, Erik
Erik	???	David, Florian
Florian	Voice Activity Detection	Erik, Hauke
Hauke	Feature Extraktion	Florian, Trung
Trung	Token-Pass historisch	Hauke, Janmann
Jan *mann	Emotion in der Synthese	Trung, Janjen
Jan *jen	NN-basierte Synthese	Janmann, Janfrau
Jan *frau	Emotionserkennung	Janjen, Justin
Justin	Sprechhilfen	Janfrau, Lukas
Lukas	State Tying	Justin, Oliver
Oliver	ASR XY ungelöst?	Lukas, Robin
Robin	Language Modelling	Oliver, Sophia
Sophia	Subword Units	Robin, Thore
Thore	Laut- oder Wort-basierte ASR	Sophia, Virginia
Virginia	Posthumanismus und Emotion	Thore, Carla

Reviewing:

ReviewForm

Formalia

Leistungsbewertung:

1,5 Leistungspunkte Präsentation:
- Qualität des Küchenzurufs / Elevator Pitch
- Präsentationskompetenz
- inhaltliche Ausarbeitung
- Ausarbeitung der Diskussionspunkte
- Gestaltung der Diskussion im Anschluss an den Vortrag
1,5 Leistungspunkte schriftliche Ausarbeitung:
- Kernbotschaft
- Kurzfassung und Strukturierung
- Inhalt der Hausarbeit, Literaturarbeit
- Rezension einer anderen Arbeit
- Formale Gestaltung

ungefährer Arbeitsaufwand:

aktive Teilnahme (14*1.5h = 21h)
thematische Vor- und Nachbereitung (14*1h = 14h)
Erarbeitung des Seminarthemas und Literaturarbeit (10h)
Erarbeitung der Präsentation (19h)
Vorbesprechung der Präsentation (1h)
Ausarbeitung der schriftlichen Arbeit inklusive Überarbeitung (20h)
Peer-Review (5h)

VGS20

NatsWiki
Main
User
Sandbox
System

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback