Protokoll 2004-05-27

Aufnahmegruppe

  • Problem: Silence detection / silence removal
    • Erster Ansatz: Silence removal tool hat Frames mitten in einer Äußerung weggeworfen
      • Abhilfe: Erst normalisieren, dann mit geeigneten Threshold zu leise Frame entfernen
      • Problem: Passenden Schwellwert hierfür finden
    • Zweiter Ansatz: Den Maximalpegel kurz nach Beginn der Aufnahme ermitteln, damit normalisieren
und danach (mit einem einheitlichen Threshold) Silence removal
  • Alternativer Ansatz: Fourier

Merkmalsextraktion

  • Optimale Parameter sind in Sichtweite
    • Tests mit 31 Sprechproben
    • Gesamteindruck gut, Selbstähnlichkeit meistens größer als Ähnlichkeit mit anderen Sprechern
    • Anzahl Fehlzuweisungen: 107 von 3480 (3%)
    • Aber: "Ausreißer" unter den Sprechern (geringe Selbstähnlichkeit)
      • Mögliche Abhilfe: Mehrere Proben pro Sprecher, irgendwie mitteln?
      • Aufnahmemodus so gestalten, dass so lange Stimmproben abgegeben werden müssen, bis darunter (wo? eine Probe, mehrere?) eine geringe Selbstähnlichkeit erreicht wird
      • Herauszufinden: Wie groß ist eigentlich so die Streuung der Selbstähnlichkeit bei mehreren Proben?
      • Vorschlag: Nach fünf Sprechproben den Durchschnitt der Selbstähnlichkeit als Mindestähnlichkeit für Erkennung nehmen
      • Oder zumindest bei der Aufnahme eine Warnung ausgeben: "Mit diesen Proben könnte es Probleme geben!"
      • Andere Idee: Aus mehreren Sprechproben irgendwie eine Referenz mitteln
        • Ansatz: Proben mit DTW alignen und Mittelwert der Proben als Referenz nehmen
          • Vom jetzigen Stand aus "leicht" zu implementieren
          • Evtl. Probleme: Weglassungen, wie bildet man den Durschnitt von drei Proben
          • Vorschlag: Ausprobieren und schauen, was das überhaupt bringt
  • Zu tun
    • Selbstähnlichkeitsstreuung untersuchen (s.o.)
    • Untersuchen: Wie liegt man die sprecherabhängige Mindestähnlichkeit zur Erkennung fest? 10% über der Selbstähnlichkeit, 15%?

Ähnlichkeitsvergleich

  • Analyse-Module mit Qualitätsmaßen und Diagrammen sind so weit fertig
  • Zurzeit in Arbeit: Interaktives Auswertungstool, das nach Kennzahlen sortieren kann etc.
  • Zu tun

Projektverlauf

  • 18 Stunden bis zur Expo
    • Neue Arbeitsgruppe zum Zusammenbau etc. bilden
    • Noch zu diskutieren: Wie soll das System überhaupt aussehen?
  • Integrationsgruppe baut erst einmal ein lauffähiges System

Ziel-System

  • Funktionen
    • Anmeldung
    • Erkennung
  • Szenario
    • Man sagt dem Roboter hallo und er weiß, wo mein Büro ist etc.

Interface

  • Windows, Screenflow
  • How fancy should it be?
    • Technically looking
    • Colours, mascot...?
    • Speech output
      • Existing speech synthesis, e.g. Mbrola, Festival, Lucent ...

Component Integration

  • Ein Teilnehmer aus jeder Gruppe als Integrationsbeauftragter
  • Kommunikation zzt. über Dateien
Warning: Can't find topic SpeakerId.WebLeftBarExample

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback