Projekt

Das EU-Projekt PF-Star hatte zum Ziel, technologische Grundlagen, vergleichende Evaluationen und Erfolgsabschätzungen für die Entwicklung verschiedener Schlüsseltechnologien bereitzustellen, die essentiell für die Entwicklung multilingualer und multisensorischer Mensch-Mensch- und Mensch-Maschine-Kommunikationssysteme sind. Das Projekt dauerte zwei Jahre und wurde Ende September 2004 erfolgreich abgeschlossen. Neben Synthese von emotionaler Sprache und emotionalen Gesichtern sowie maschineller Übersetzung umfasste das Projekt die zwei Arbeitspakete Erkennung von Emotionen (WP3) und Kindersprache (WP5), an denen der Lehrstuhl für Mustererkennung (Informatik 5) als Leiter bzw. Partner teilnahm. Während im ersten Jahr von PF-Star hauptsächlich neue Korpora aufgezeichnet worden waren und alle Ergebnisse mit existierenden Korpora erzielt worden waren, wurden nun im zweiten Jahr die neuen Korpora verwendet. Das Korpus, das für beide Arbeitspakete, WP3 und WP5, aufgezeichnet worden war, ist das AIBO-Korpus. Es umfasst 9 Stunden Sprache von Kindern, die mit dem AIBO-Roboter spielen (spontane, emotionale Sprache). An der Universität Birmingham wurden vergleichbare Aufnahmen durchgeführt.

Für das Arbeitspaket Erkennung von Emotionen (WP3) wurden bis März 2004 zu jedem gesprochenen Wort von fünf Studenten prosodische Eigenheiten und der emotionale Benutzerzustand annotiert. Als dritte Annotation werden zur Zeit die Äußerungen der Kinder mit dem Verhalten des AIBO abgestimmt. Im zweiten Teil des Berichtszeitraumes wurden die englischen Aufnahmen der Uni Birmingham annotiert (emotionaler Benutzerzustand). Beim Labeln der Daten galt es einem zentralen Problem in der Emotionsforschung gerecht zu werden: Ein Klassifikator kann nämlich nur bestenfalls das erkennen, was annotiert ist, und nicht die tatsächlichen Phänomene. Deshalb wurde ein entropiebasiertes Maß entwickelt, um zu zeigen, inwiefern die Erkennung des Klassifikators mit der menschlichen Erkennung übereinstimmt. Es konnte gezeigt werden, dass unser Ansatz, von mehreren Nicht-Experten annotieren zu lassen und anschließend per Mehrheitsentscheidung ein Label zu erhalten, eine gute Alternative zu einem solchen Ansatz ist, in dem Experten-Labeler zuvor trainiert werden.

Um automatisch emotionale Wörter des AIBO-Korpus klassifizieren zu können, wurden verschiedene Merkmalssätze verwendet: prosodische, spektrale und POS-Merkmale (part-of-speech, z.B. "Substantiv"). In verschiedenen Experimenten wurden Neuronale Netze oder LDA-Klassifikatoren trainiert und als Referenz die Mehrheitsentscheidung der Labeler zugrundegelegt. Beim 2-Klassen-Problem "positiv+neutral" versus "negativ" wurde eine klassenweise gemittelte Erkennungsrate (CL) von 76% erzielt. Für sieben Klassen (erfreut, bemutternd, neutral, emphatisch, energisch, verärgert, tadelnd) werden 45% CL erzielt.

Als weiteres Korpus wurde SYMPAFLY - emotionale Sprache von Sprechern, die ein automatisches Flugbuchungssystem anrufen - hauptsächlich im ersten Jahr von PF-Star verwendet. Im Berichtszeitraum wurden alternative Merkmale, wie z.B. MFCC-basierte und HNR-basierte (Harmonicity-to-Noise-Ratio) Merkmale, untersucht. Ferner wurden alle Merkmale sowohl auf Wort- als auch auf Äußerungsebene berechnet. Für das 2-Klassen-Problem konnten bis zu 75% CL erzielt werden, für vier Klassen 57%.

Im Teilgebiet Kindersprache (WP5) wurden die neuen Korpora untersucht, wobei Baseline-Erkennungsraten und einige Maße von altersspezifischen Eigenschaften im Vordergrund standen. Am Lehrstuhl für Mustererkennung waren vier neue Korpora mit insgesamt etwa 23 Stunden Sprache neu aufgenommen worden: Das AIBO-Korpus umfasst 9 Stunden Spontansprache und OHM8000 (ein Korpus mit einem großen Vokabular von 8000 Wörtern) 9 Stunden gelesener Sprache. Ferner wurden deutsche Kinder, die englische Texte lesen, aufgezeichnet. Vergleichbare Phrasen wurden auch von der Universität Birmingham und dem italienischen Forschungsinstitut ITC-irst aufgenommen. Das vierte Korpus stellt eine kleine Sammlung von Aufnahmen von Kindern mit Sprachbehinderung dar.

Für all diese Korpora wurden Baseline-Erkenner mit Hilfe verschiedener Trainingsverfahren und basierend auf verschiedenen Merkmalssätzen entwickelt. Zudem wurden Sprechervariabilitäten und die Lage der Formanten im Spektrum untersucht: Intra-Sprecher-Varianzen sind für junge Kinder größer, Formanten werden in höhere Frequenzbereiche verschoben. Auf den AIBO-Daten konnten höhere Erkennungsraten für Wörter beobachtet werden, die als "verärgert" oder "emphatisch" markiert sind, wohingegen "bemutternd" schlechter erkannt wurde. Erkennungsraten für gelesene Sprache konnten mit Hilfe verschiedener Sprachmodelle verbessert werden. Eine Herausforderung bei nicht-nativer Kindersprache stellt die automatische Bewertung der Aussprache dar. Dazu wurde ein 30-dimensionaler Merkmalssatz entwickelt. Falsch ausgesprochene Wörter konnten so mit 72% Erkennungsrate detektiert werden. Als Anwendungen sind Programme zum computergestützten Erlernen einer Fremdsprache denkbar; für zukünftige Untersuchungen liegen nun auch Referenzbewertungen von mehreren Englischlehrern vor. Das Korpus mit Kindern mit Sprachbehinderung umfasst Aufnahmen von LKG-Kindern (Lippen-, Kiefer-, Gaumenspalte). Der Lehrstuhl für Mustererkennung entwickelt ein objektives Maß, um Kinder während einer Sprachtherapie zu bewerten. Erste automatische Messungen des Nasalitätsgrades korrelieren mit den menschlichen Bewertungen zu 0.66. Bei der Analyse wird der Anteil für die Nasalierung typischer Frequenzen in Bezug zur gesamten Sprachenergie gesetzt.

In weiteren Untersuchungen mit dem AIBO-Korpus wurde versucht verhallte und verrauschte Sprache robuster zu erkennen. Dazu wurden TRAP-basierte Merkmale (TempoRAl Pattern) implementiert.