Publication Entry

[Back]

Doctor's Theses (authored and supervised):

N. Brosch:
"Spatio-temporal Video Analysis for Semi-automatic 2D-to-3D Conversion";
Supervisor, Reviewer: M. Gelautz, M. Rupp; Institut für Softwaretechnik und Interaktive Systeme, 2016; oral examination: 2016-10-25.

English abstract:

This thesis addresses the problem of cost-efficiently converting monoscopic (2D) videos to stereoscopic (3D) videos. Common practices to perform such a 2D-to-3D conversion are labor-intensive manual conversions, which are typically used for high-quality 3D cinema productions, and fully-automatic conversions of lower conversion quality, which may be integrated into, e.g.,(auto-)stereoscopic TVs. In this thesis we focus on semi-automatic 2D-to-3D conversions, which can be seen as a compromise between fully-automatic and manual techniques. Such approaches are typically based on sparse user-given disparity (or depth) information, which is propagated to each pixel in a 2D video by assuming a color constancy model. This process ideally requires only minimal user input and efficiently generates disparity maps of high conversion quality, which are suitable for rendering a second 2D video that completes the 3D video. In order to avoid common artifacts related to such propagations, e.g., over-smoothed results and spatio-temporal or perceptual incoherencies, we exploit spatio-temporal segmentation information. The thesis presents two novel semi-automatic 2D-to-3D conversion algorithms that view segmentation as an integral part of the conversion process and are based on comfortable user input in the form of sparse scribbles drawn in the first (and last) frame of a 2D video.
Our first 2D-to-3D conversion algorithm tackles 2D-to-3D conversion and segmentation in a joint approach. It propagates available disparities between neighboring pixels while assigning them to the same segment. In this manner, our algorithm generates disparity maps that capture object borders in the 2D video and contain smooth disparity changes within segments and over time, which is challenging for currently available algorithms. We also provide a scalable implementation that achieves interactive runtimes of one frame per second (resolution of approximately 0.3 megapixels).
The second 2D-to-3D conversion algorithm takes a step towards the generation of perceptually coherent disparity maps. In particular, it enables temporal disparity interpolations that are performed in accordance with motion-caused occlusions between segments. This results in spatio-temporally coherent disparity maps in which disparities of moving objects harmonize with those of nearby objects. The presented segmentation algorithm, used in the conversion algorithm, relies on a spatio-temporal filtering scheme and, thus, achieves fast processing speeds (250 frames per second for a video with a resolution of approximately 0.2 megapixels per frame).
We compare our own algorithms with different semi-automatic 2D-to-3D conversion algo-rithms suggested in the literature and achieve results of high conversion quality. In this context, our algorithms outperform a well-established conversion algorithm. As opposed to most earlier studies, our final evaluation study is performed under consideration of different scribbling strate-gies and provides practical insights into the annotation process by investigating the performance of various scribble placement techniques in conjunction with different 2D image content.

German abstract:

Diese Arbeit widmet sich der kosteneffizienten Konvertierung von monoskopischen (2D) zu stereoskopischen (3D) Videos. Dabei stellen semi-automatische 2D-zu-3D Konvertierungsverfahren einen Kompromiss zwischen professionellen, aber aufwändigen manuellen und qualitativ schlechteren, vollautomatischen Verfahren dar. Semi-automatische Verfahren propagieren, unter der Annahme von Farbkonsistenz, von BenutzerInnen gegebene Tiefeninformation (Disparität) über das komplette 2D-Video. Die so generierten Disparitätsvideos können für das Erstellen eines zweiten 2D-Videos, welches das 3D-Video vervollständigt, verwendet werden. Ein ideales Konvertierungsverfahren vereint Faktoren wie hohe Qualität der generierten Disparitätsvideos, geringen Arbeitsaufwand für BenutzerInnen und kurze Laufzeiten miteinander. Dabei gilt es, typische Artefakte wie übermäßiges Glätten, raumzeitliche Inkohärenz oder Konflikte zwischen generierter und im 2D-Video wahrgenommener Tiefe zu verhindern. Der wissenschaftliche Beitrag dieser Arbeit umfasst zwei semi-automatische 2D-zu-3D Konvertierungsalgorithmen, in denen raum-zeitliche Segmentierung einen integralen Bestandteil darstellt. Sie basieren auf groben Initialisierungen mit Disparitäts-Scribbles im ersten (und letzten) Frame des 2D-Videos.
Der erste Algorithmus propagiert die spärlich vorgegebenen Disparitäten im Zuge des Segmentierungsprozesses auf das gesamte Video. Disparitäten werden zwischen Nachbarpixeln propagiert, wenn diese zu einem Segment zusammengefasst werden. Diese Vorgehensweise verhindert übermäßiges Glätten von Disparitäten über Segmentgrenzen und ermöglicht raum-zeitlich kohärente Disparitätsübergänge innerhalb von Segmenten. Eine skalierbare Implementierung erlaubt effiziente Konvertierungsvorgänge (ein Frame pro Sekunde für Auflösungen von 0.3 Megapixel).
Der zweite Algorithmus beschäftigt sich mit Konflikten zwischen generiertem und im ursprünglichen 2D-Video wahrgenommenen Tiefeneindruck. Der Algorithmus bindet bewegungsbedingte Verdeckungen im 2D-Video in die zeitlichen Interpolierungen von Disparitäten ein. Dies führt zu realistischeren Tiefendarstellungen von Objekten, die sich im Laufe des Videos in der Tiefe bewegen. Der dabei verwendete Segmentierungsalgorithmus basiert auf effizienten Filteroperationen und erreicht geringe Laufzeiten (250 Frames pro Sekunde für Auflösungen von 0.2 Megapixel).
In dieser Arbeit entwickelte Algorithmen werden mit semi-automatischen 2D-zu-3D Konvertierungsalgorithmen aus der Literatur verglichen und generieren dabei Disparitätsvideos von hoher Qualität. Die Qualität ihrer Ergebnisse überrtrifft die eines etablierten Algorithmus. Eine abschließende Evaluierung berücksichtigt zusätzlich verschiedene Strategien der Scribble-Platzierung, welche die Konvertierungsergebnisse stark beeinflussen können. Eine Untersuchung dieser Strategien im Zusammenhang mit verschiedenen 2D-Bildinhalten sowie ihrer Robustheit gegenüber Ungenauigkeiten bei der Scribble-Platzierung gibt praktische Einblicke in den Scribble-basierten Initialisierungsprozess, welchem in der vorhandenen Literatur nur geringe Aufmerksamkeit geschenkt wird.

Keywords:

2D-to-3D conversion, segmentation, disparity, video analysis, depth

Electronic version of the publication:

http://publik.tuwien.ac.at/files/PubDat_252300.pdf

Related Projects:

Project Head Margrit Gelautz:
Design eines intelligenten Workflows für kostengünstige 3D-Filmproduktion

Created from the Publication Database of the Vienna University of Technology.