UHH>Informatik>NatS>SpeakerId Web>ProtokollSiebenundzwanzigsterMai (17 Oct 2012, UnknownUser) Print version

Protokoll 2004-05-27

Aufnahmegruppe

Problem: Silence detection / silence removal
- Erster Ansatz: Silence removal tool hat Frames mitten in einer Äußerung weggeworfen
  - Abhilfe: Erst normalisieren, dann mit geeigneten Threshold zu leise Frame entfernen
  - Problem: Passenden Schwellwert hierfür finden
- Zweiter Ansatz: Den Maximalpegel kurz nach Beginn der Aufnahme ermitteln, damit normalisieren

und danach (mit einem einheitlichen Threshold) Silence removal

Alternativer Ansatz: Fourier

Merkmalsextraktion

Optimale Parameter sind in Sichtweite
- Tests mit 31 Sprechproben
- Gesamteindruck gut, Selbstähnlichkeit meistens größer als Ähnlichkeit mit anderen Sprechern
- Anzahl Fehlzuweisungen: 107 von 3480 (3%)
- Aber: "Ausreißer" unter den Sprechern (geringe Selbstähnlichkeit)
  - Mögliche Abhilfe: Mehrere Proben pro Sprecher, irgendwie mitteln?
  - Aufnahmemodus so gestalten, dass so lange Stimmproben abgegeben werden müssen, bis darunter (wo? eine Probe, mehrere?) eine geringe Selbstähnlichkeit erreicht wird
  - Herauszufinden: Wie groß ist eigentlich so die Streuung der Selbstähnlichkeit bei mehreren Proben?
  - Vorschlag: Nach fünf Sprechproben den Durchschnitt der Selbstähnlichkeit als Mindestähnlichkeit für Erkennung nehmen
  - Oder zumindest bei der Aufnahme eine Warnung ausgeben: "Mit diesen Proben könnte es Probleme geben!"
  - Andere Idee: Aus mehreren Sprechproben irgendwie eine Referenz mitteln
    - Ansatz: Proben mit DTW alignen und Mittelwert der Proben als Referenz nehmen
      - Vom jetzigen Stand aus "leicht" zu implementieren
      - Evtl. Probleme: Weglassungen, wie bildet man den Durschnitt von drei Proben
      - Vorschlag: Ausprobieren und schauen, was das überhaupt bringt
Zu tun
- Selbstähnlichkeitsstreuung untersuchen (s.o.)
- Untersuchen: Wie liegt man die sprecherabhängige Mindestähnlichkeit zur Erkennung fest? 10% über der Selbstähnlichkeit, 15%?

Ähnlichkeitsvergleich

Analyse-Module mit Qualitätsmaßen und Diagrammen sind so weit fertig
Zurzeit in Arbeit: Interaktives Auswertungstool, das nach Kennzahlen sortieren kann etc.
Zu tun
- DTW-Matching zweier Proben implementieren (s.o.)
  - Siehe auch: Averaging physiological signals with the use of a DTW algorithm
- Nochmal genau vergleichen: NDTW vs. DTW
- DTW-Evaluierung (Slope-Typen, Abstandsmaß, Gewinnen)
- Gesamt-Evaluierung auf mehr als zwei Proben pro Teilnehmer pro Gruppe umstricken

Projektverlauf

18 Stunden bis zur Expo
- Neue Arbeitsgruppe zum Zusammenbau etc. bilden
- Noch zu diskutieren: Wie soll das System überhaupt aussehen?
Integrationsgruppe baut erst einmal ein lauffähiges System

Ziel-System

Funktionen
- Anmeldung
- Erkennung
Szenario
- Man sagt dem Roboter hallo und er weiß, wo mein Büro ist etc.

Interface

Windows, Screenflow
How fancy should it be?
- Technically looking
- Colours, mascot...?
- Speech output
  - Existing speech synthesis, e.g. Mbrola, Festival, Lucent ...

Component Integration

Ein Teilnehmer aus jeder Gruppe als Integrationsbeauftragter
Kommunikation zzt. über Dateien

SpeakerId

Warning: Can't find topic SpeakerId.WebLeftBarExample

Copyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback