Publication Entry

[Back]

Diploma and Master Theses (authored and supervised):

F. Stiedl:
"Optimizing Realism in Synthetic Data for Training 2D Human Pose Estimation Algorithms";
Supervisor: M. Gelautz, M. Hödlmoser; E193 Institute for Visual Computing and Human-Centered Technology, 2021.

English abstract:

Generating synthetic data containing humans is a subject of growing importance in computer vision. In the context of deep learning algorithms, large amounts of annotated data are needed for training. Synthetic data can help overcome a frequent lack of real annotated training data with ground truth annotations, which are produced as a byproduct of the data synthesis process. This thesis examines the generation of synthetic images containing human characters in connection with human 2D joint estimation algorithms. The focus of this work lies in designing and implementing a framework using the game engine Unity for generating synthetic training data for training and benchmarking a deep learning algorithm on the COCO dataset. We develop the framework in a way that allows us to change a number of parameters when generating synthetic data. In particular, we evaluate the impact of hair, background and human model textures on the accuracy of our estimator. Our evaluations show that increasing the variability of clothing textures, hairstyles and background images clearly improves the results up to a certain point.

German abstract:

Das Generieren von synthetischen Daten, die Menschen enthalten, ist ein immer wichtiger werdendes Thema in der Bildverarbeitung. Im Kontext von Deep Learning werden große Mengen an annotierten Daten für das Trainieren von Algorithmen benötigt. Das Problem fehlender realer Trainingsdaten kann mithilfe von synthetischen Daten gelöst werden, da beim Generieren dieser synthetischen Daten als Nebenprodukt Annotierungen erzeugt werden. Die vorliegende Arbeit untersucht die Generierung synthetischer Bilder, die Menschen enthalten, im Zusammenhang mit der Schätzung menschlicher 2D Körperhaltung. Der Fokus dieser Arbeit liegt auf dem Design und der Implementierung eines mit der Spiel-Engine Unity entwickelten Frameworks, das synthetische Trainingsdaten für das Trainieren eines Deep Learning Algorithmus und dessen Benchmarks auf dem COCO Datensatz erzeugt. Im Mittelpunkt des Frameworks steht die Möglichkeit, eine Reihe von Parametern bei der Generierung synthetischer Daten zu ändern. Insbesondere evaluieren wir, wie sich Veränderungen von Haaren, Hintergründen und Texturen der menschlichen Modelle auf die Genauigkeit des trainierten Algorithmus auswirken. Unsere Ergebnisse zeigen, dass die Vielfalt der Variationen der ausgewerteten Aspekte bis zu einem gewissen Punkt von Bedeutung sind

Keywords:

simulation,human pose estimation, machine learning

Electronic version of the publication:

https://publik.tuwien.ac.at/files/publik_295280.pdf

Created from the Publication Database of the Vienna University of Technology.