Experimentier Plan

  1. Ermitteln der besten Framerate und Fensterbreite
    • Parameter:
      • (Framerate, Fensterbreite): (5ms, 12.5ms), (10ms, 25ms)
    • Dateien
      • Signale: manuell segmentierte Signale; 30 Sprecher; directory: Wavefiles2/
        • Jeweils 2 Aufnahmen von 20 Sprechern erstellt und in Wavefiles2/Waves070504/ abgelegt. Sprecher waren Studenten und Mitarbeiter, die groesstenteils unbekannt sind und nur ihren Vornamen angaben.
        • Die beiden Sprachdateien wurden direkt nacheinander aufgenommen.
        • Die Aufnahmen wurden mit Praat, im Labor und mit dem Mikrofon, dass wir vorher auch immer benutzt haben, aufgenommen.
        • Die Stille wurde manuell mit Praat entfernt.
        • Jeweils 2 Aufnahmen von 10 Sprechern (Teilnehmer des Projektes) wurden zuvor (am 23.04.04 (außer den 4 Dateien, die weiter unten beschrieben sind)) aufgenommen. Sie befinden sich unter Wavefiles2/.
        • alex1.wav, dirk1.wav, marina1.wav, monica1.wav wurden am 16.04.04 aufgenommen.
        • Diese wurden unter den gleichen Bedingungen und Geräten erstellt.
      • Features: 12 LPREFC
      • Vertauschungsmatrix
      • Qualitätsmaße (incl. Rechenaufwand)
    • Resultate
      • (5ms, 12,5ms) ca. 4-facher Rechenzeitaufwand
  2. Ermitteln der optimalen LPC-Parameter
    • Parameter:
      • (Delta,Energie,Koeffizientenanzahl)
      • Delta = {ohne delta, mit delta, mit delta hoch zwei}
      • Energie = {mit, ohne}
      • Koeffizientenanzahl = {12, ... , 20}
      • Features: LPREFC, LPC
    • Dateien
      • Signale: manuell segmentierte Signale; directory: Wavefiles2/
      • Konfigurationsdateien mit verschiedenen Parameterkonfigurationen befinden sich unter featurefiles/2004-04-30_1/
      • Vertauschungsmatrix
      • Qualitätsmaße (incl. Rechenaufwand)
    • Resultate
      • LPC-Features sind durchgehend nutzlos, LPREFC haben wesentlich bessere Trefferraten, unabhängig von den anderen Parametern
  3. Ermitteln eines optimalen Vergleichsalgorithmus
    • Parameter * DTW/NDTW * verschiedene Slope-constraints (max. 2)
    • Dateien
      • Features: optimale Merkmalsfiles aus vorangegangenem Experiment
      • Vertauschungsmatrix
      • Qualitätsmaße (incl. Rechenaufwand)
    • Resultate
  4. Ermitteln des optimalen Schwellwerts der Silence-Detektion
    • Parameter
      • Schwellwert
        • 200, 210, 215, 250, 300, 400
        • Beim leisesten Signal (marinaA1.wav) wurde ab einem Schwellwert von 215 das letzte "e" abgeschnitten. Allerdings bleibt bis 300 in einigen Signalen (ermim1.wav, etc.) Stille bestehen.
      • Aufnahmeort
        • Im Labor
    • Signale:

    • Gruppe 1 Entwicklung einer Silence-Detection
    • Gruppe 2 erstellt das Kreuzprodukt der Parameter aller praktikablen Kombinationen und konvertiert die Wave Dateien mit diesen
      • Grundfrequenz als zusätzliches Merkmal?
    • Gruppe 3 erstellt daraus die Abstands-Matrizen (normiert auf die Dimension der Vektoren)

  • Bewerten der entstehenden Matrizen mit einem Maß:
    • Ähnlichkeit der Sprecher mit sich selbst: Maximum, Minimum und Durchschnitt
    • Abstand zwischen unterschiedlichen Sprechern: Maximum. Minimum und Durchschnitt
    • Anteil der Fehlzuweisungen

  • Protokoll soll automatisch erstellt werden
  • Ergebnisse sollen visualisiert werden

  • Vorgehensweisen für Ablehnung eines Sprechers
    • Einheitlicher Schwellwert für alle Sprecher
    • Speicherung eines individuellen Höchstabstandes für jeden Sprecher (Die Höchstabstände müssen in weiteren Experimenten ermittelt werden)

  • Noch zu tun
    • andere Signalparameter (MFCC, ...)
    • Langzeitverhalten von Sprechern
    • Mikrofonabhängigkeit (Soundkarte)
    • mehrere unterschiedliche Sätze pro Sprecher
    • "große" Sprecheranzahlen
    • Einfluss der Silence-Detektion

-- DirkKnoblauch -- 29 Apr 2004
Warning: Can't find topic SpeakerId.WebLeftBarExample

 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback