Der Roboter soll sich in verschiedenen Räumen orientieren,
Befehle von mehreren Sprechern entgegennehmen können und
diese Befehle sequentiell ausführen.
In drei besonders gekennzeichneten Räumen soll er spezielle Tätigkeiten ausführen können
Die Türen zu allen Räumen müssen offen stehen
Der Roboter überprüft selbstständig, ob die erwartete Person anwesend ist
Abwesenheit geht der Robotter nach einer definierten Zeit in seine Parkposition zurück und
er sendet ein E-mail mit einer Nachricht an die abwesende Position
Vorgehensweise
Erstellung von vier unabhängigen Grammatiken für drei verschiedene Szenarien. Durch die Kontextabhängigkeit besteht eine höhere Erkennungsgenauigkeit, das Vokabular wird reduziert
Jeder Raum bekommt eine unabhängige Grammatik zugeordnet
Flur (Hauptbewegungsraum, viele Zimmer als mögliche Zielorte gehen hiervon ab)
Bibliothekszimmer (Ein Buch kann gefunden und genommen werden)
Kaffeeraum (Ein Tablett kann genommen werden)
zusätzliche Abfrage des Weltwissens
Trennung der einzelnen Grammatiken durch ein "und" im gesprochenen Satz
Für jedes Satzteil wird neu entschieden, welches Vokabular verwendet wird
Die Maschine gibt einen Befehlssatz aus
Die Maschine gibt eine Bestätigung des verstandenen Satzes zurück
Es soll ein Phonemerkenner auf Triphonbasis erstellt werden (Bei 40 Phonemen ergibt dies eine Theoretische Anzahl von 40³)
Dazu müssen die Erkennungsgrenzen evaluiert werden
Angefangen wird mit Monophonen:
Wie viele emittierende Knoten werden im HMM für die verschiedenen Phoneme benötigt,
dabei muss insbesondere die Koartikulation berücksichtigt werden
Ein Aussprachewörterbuch mit der kanonischen Aussprache wird erstellt
Der Erkenner wird mit Verbmobildaten trainiert
Zusätzlich kommen eigene Worte hinzu
Beim Training werden Verschleifungen der Aussprache mittrainiert
Eine, bzw. mehrere Grammatiken werden erstellt, welche Worte auf welche folgen dürfen (Viterbisuche)