Publication Entry

[Back]

Diploma and Master Theses (authored and supervised):

D. Schörkhuber:
"Techniques for Improving Mobile Video Creation";
Supervisor: M. Gelautz; Fakultät für Informatik der Technischen Universität Wien, 2018; final examination: 2018-12-21.

English abstract:

In this thesis, we explore methods to assist non-professional users with video creation on mobile devices. The developed algorithms are embedded into a video creation application featuring a storyboard based workflow. We present three kinds of assistance systems which help the user avoiding mistakes commonly made by amateur users and follow cinematographic guidelines during recording. In order to improve the resulting video quality, we address the problems of (a) video stabilization, (b) shot-type classification, and (c) lens occlusion. In the context of video stabilization, the camera path is first reconstructed and then different optimization strategies are employed to improve the camera path. We use a Linear Programming approach to create a piece-wise linear path and compare it with a local smoothing method. Next, we present an approach to automatically infer the shot-type for a scene observed by a camera. Person keypoint
detectors are used to extract joint information for all actors. We compute the skeletal representation of the main actor and classify it into a cinematographic description of the scene. Among the compared approaches for classification, support vector machines showed the best performance. For training and evaluation, we produce datasets based on image recordings at a set distance and manually annotated movie scenes. The result can be compared to a given storyboard in order to give feedback to the user accordingly.
Finally, we address the problem of accidentally occluding the camera lens, which is a common mistake during recording with a smart phone. We formulate this task as a semantic segmentation problem and solve it with classical image processing as well as a deep learning method. The classical image processing approach is clearly outperformed by a combination of Mobilenets and Fully Convolutional Neural Networks.

German abstract:

In dieser Diplomarbeit erforschen wir Methoden, um nicht professionelle Benutzer bei der Videoerstellung auf Mobilgeräten zu unterstützen. Die entwickelte Algorithmik ist eingebettet in ein storyboard-basiertes Anwendungskonzept. Wir stellen drei Arten von Assistenzsystemen vor, welche es einem Benutzer ohne Vorkenntnisse erlauben, kinematografische Konzepte anzuwenden und häufige Fehler bei der Aufnahme zu vermeiden.
Um die Videoqualität zu verbessern, behandeln wir die Themen (a) Video Stabilisierung,(b) Shot-Typ Klassifikation und (c) Linsenverdeckung. Um ein Video zu stabilisieren, wird zunächst der Kamerapfad rekonstruiert. Wir vergleichen zwei Optimierungsansätze.
Linear Programming wird eingesetzt, um den Kamerapfad stückweise zu linearisieren, und wir vergleichen diesen Ansatz mit einer lokalen Glättung des Pfades. In einem weiteren Ansatz präsentieren wir ein System zur automatischen Erkennung des Shot-Typs einer Szene. Zu dessen Erkennung extrahieren wir die Gelenkspunkte der dargestellten Akteure. Wir identifizieren den Hauptakteur und errechnen daraus eine kinematografische Beschreibung. Support Vector Maschinen zeigten in unserer Evaluierung die besten Klassifizierungsraten unter den verglichenen Ansätzen. Für Training und Evaluierung wurden mehrere Datensätze erstellt. Dabei setzen wir sowohl auf Szenen, die aus definierten Entfernungen aufgenommen wurden, als auch auf manuell annotierte Filmszenen. Das Klassifizierungsergebnis kann mit dem Storyboard verglichen werden, um korrektive Maßnahmen einzuleiten. Zuletzt behandeln wir unabsichtliche Verdeckungen der Kameralinse.
Während der Videoaufnahme mit Smartphones ist es ein häufiger Fehler, die Linse unabsichtlich mit den Fingern zu verdecken. Wir formulieren das Problem als Segmentierungsaufgabe und wenden zur Lösung einen klassischen Bildverarbeitungsansatz als auch eine Deep Learning Methodik an. Die eingesetzte Deep Learning Architektur, eine Kombination aus Mobilenets und Fully Convolution Neural Network, zeigt deutlich bessere Ergebnisse.

Electronic version of the publication:

https://publik.tuwien.ac.at/files/publik_274527.pdf

Related Projects:

Project Head Margrit Gelautz:
PersonalFilmAssistant

Created from the Publication Database of the Vienna University of Technology.