[Back]


Diploma and Master Theses (authored and supervised):

C. Fischl:
"Emotionsbasierte Videoverfremdung";
Supervisor: H. Eidenberger; Softwaretechnik und Interaktive Systeme, 2012.



English abstract:
This master thesis is about obfuscation of persons shown in a video. The obfuscation
process is based on an automatic evaluation of emotional speech. On the one hand visible
and audible individuals are anonymized by the implemented effects. On the other hand
the effects are supposed to reconstruct or even emphasize emotions that are lost during
the anonymization process. Many works on emotion recognition focus on distinguishing
between the so-called basic emotions proposed by Ekman like joy, sadness, anger,
fear, etc. In this thesis, emotions are described in a continuous, three-dimensional space,
the coordinate axes of which correspond to the emotion primitives valence, arousal and
dominance. The emotion recognition is accomplished by two different machine learning
algorithms namely Support Vector Regression and a modified k-Nearest-Neighbor algorithm.
The training and test sets for the machine learning process are taken from the
German Vera am Mittag database out of the HUMAINE project. The dataset contains
twelve hours of annotated and ready-to-use video and speech. In this work 69 prosodic
and spectral features such as pitch, RMS or MFCC are used for emotion recognition.
A separate ranking of all features is created for each of the three emotion primitives.
Three different visual anonymization effects are implemented: an edge based effect, a
symbolic based effect and an effect for a hand-painted look. The emotion primitives act
as steering parameters for the effects and thus directly influence their appearance. Voice
is anonymized by applying a vocoder-like effect.

German abstract:
In dieser Diplomarbeit wird Video- und Audiomaterial aufgrund automatischer Bewertung
des Emotionsgehalts sprachlicher Äußerungen verfremdet. Zum einen dient diese
Verfremdung der Anonymisierung der dargestellten Personen und zum anderen wird dabei
eine hervorgehobene Darstellung der Emotionen erzielt. Häufig konzentriert sich die
Emotionserkennung auf die Unterscheidung einiger weniger Basisemotionen wie Freude,
Trauer, Wut, Angst etc. In dieser Arbeit werden die Emotionen in einem dreidimensionalen
Ansatz im R3-Raum kontinuierlich beschrieben, wobei der Raum durch die drei
Emotionsprimitive Valenz, Arousal und Dominanz aufgespannt wird. Die Emotionserkennung
erfolgt dabei in einem Mustererkennungsprozess, für den Support Vector Regression
und ein adaptierter k-Nearest-Neighbor-Algorithmus zum Einsatz kommen. Für
Training und Test des Maschinenlernverfahrens wird die Vera am Mittag-Datenbank aus
dem HUMAINE-Projekt verwendet. Sie beinhaltet Video- und Audiomaterial, welches
in einer Evaluierung durch 17 Personen emotional bewertet wurde. Insgesamt werden
69 prosodische und spektrale Merkmale wie beispielsweise die Tonhöhe, RMS-Energie,
MFCC-Koeffizienten etc. aus der Tonspur extrahiert. Für jede Gefühlsdimension wird ein
Ranking der Relevanz erstellt. Die ermittelten Emotionen werden anschließend für die
Manipulation des Materials herangezogen. Für die visuelle Verfremdung werden dabei
drei Verfahren implementiert: ein kantenbasierendes, ein symbolbasierendes und eines,
um einen impressionistischen Effekt zu erhalten. Die Emotionen wirken dabei auf verschiedene
Parameter der Videoeffektfilter ein. Die Tonspur wird durch eine Art Vocoder
verzerrt und anonymisiert.

Created from the Publication Database of the Vienna University of Technology.