Erster Ansatz: Silence removal tool hat Frames mitten in einer Äußerung weggeworfen
Abhilfe: Erst normalisieren, dann mit geeigneten Threshold zu leise Frame entfernen
Problem: Passenden Schwellwert hierfür finden
Zweiter Ansatz: Den Maximalpegel kurz nach Beginn der Aufnahme ermitteln, damit normalisieren
und danach (mit einem einheitlichen Threshold) Silence removal
Alternativer Ansatz: Fourier
Merkmalsextraktion
Optimale Parameter sind in Sichtweite
Tests mit 31 Sprechproben
Gesamteindruck gut, Selbstähnlichkeit meistens größer als Ähnlichkeit mit anderen Sprechern
Anzahl Fehlzuweisungen: 107 von 3480 (3%)
Aber: "Ausreißer" unter den Sprechern (geringe Selbstähnlichkeit)
Mögliche Abhilfe: Mehrere Proben pro Sprecher, irgendwie mitteln?
Aufnahmemodus so gestalten, dass so lange Stimmproben abgegeben werden müssen, bis darunter (wo? eine Probe, mehrere?) eine geringe Selbstähnlichkeit erreicht wird
Herauszufinden: Wie groß ist eigentlich so die Streuung der Selbstähnlichkeit bei mehreren Proben?
Vorschlag: Nach fünf Sprechproben den Durchschnitt der Selbstähnlichkeit als Mindestähnlichkeit für Erkennung nehmen
Oder zumindest bei der Aufnahme eine Warnung ausgeben: "Mit diesen Proben könnte es Probleme geben!"
Andere Idee: Aus mehreren Sprechproben irgendwie eine Referenz mitteln
Ansatz: Proben mit DTW alignen und Mittelwert der Proben als Referenz nehmen
Vom jetzigen Stand aus "leicht" zu implementieren
Evtl. Probleme: Weglassungen, wie bildet man den Durschnitt von drei Proben
Vorschlag: Ausprobieren und schauen, was das überhaupt bringt
Zu tun
Selbstähnlichkeitsstreuung untersuchen (s.o.)
Untersuchen: Wie liegt man die sprecherabhängige Mindestähnlichkeit zur Erkennung fest? 10% über der Selbstähnlichkeit, 15%?
Ähnlichkeitsvergleich
Analyse-Module mit Qualitätsmaßen und Diagrammen sind so weit fertig
Zurzeit in Arbeit: Interaktives Auswertungstool, das nach Kennzahlen sortieren kann etc.