[Back]


Diploma and Master Theses (authored and supervised):

B. Sespede:
"Interactive Post-Processing of 2D-Plus-Depth Videos: Algorithms, Implementation and Evaluation";
Supervisor: M. Gelautz, F. Seitner; University of Applied Sciences Technikum Wien, 2018; final examination: 2018-06-12.



English abstract:
One of the approaches to reconstruct the depth of real-world objects or scenes consists of using stereo cameras to record them in image or video format, and estimate the disparity between views of the captured scene with the aid of stereo correspondence algorithms. Due to disparity mismatches during the correspondence estimation, surface reconstruction algorithms can fail to generate accurate geometric representations. Additionally, when reconstructing 3D models from 2D-plus-depth video, flickering between frames might occur. Post-processing techniques can be used to remove inconsistencies, suppress noise, and correct erroneously labeled disparities.
This thesis addresses the development and evaluation of automatic and user-supported post-processing techniques for correction of 2D-plus-depth videos. Multiple stereo cameras capture the videos from different viewing directions. An interactive RGBD segmentation algorithm based on efficient cost-volume filtering is used to guide local corrections and extract objects of interest for 3D animated reconstructions. Additionally, state-of-the-art filters are implemented to smooth surfaces and reduce temporal flicker. Finally, the techniques are integrated into a tool with interactive visualizations of 2D-plus-depth content.
Results show that user-assisted segmentation enables the extraction of precise masks, allowing the correction of wrongly labeled disparities. Additionally, spatio-temporal edge-preserving filters such as the weighted median filter and guided filter prove to be key components of post-processing. Spatio-temporal filters not only smooth surfaces but also improve the consistency of segmentation masks as well. Finally, the addition of an interactive visualization tool enables a better understanding of the post-processing techniques and other elements of the pipeline such as the calibration and the underlying stereo correspondence algorithm.

German abstract:
Einer der Ansätze, um die Tiefe von realen Objekten oder Szenen zu rekonstruieren, besteht darin, Stereokameras zu verwenden, um sie im Bild- oder Videoformat aufzuzeichnen und mit Hilfe von Stereokorrespondenzalgorithmen die Disparität zwischen den Ansichten der aufgenommenen Szene zu schätzen. Aufgrund von Fehlern in der Disparitätsbestimmung können Oberflächen-Rekonstruktionsalgorithmen häufig keine genauen geometrischen Darstellungen liefern. Beim Rekonstruieren von 3D-Modellen aus 2D-plus-depth Videos kann außerdem ein Flackern zwischen Frames auftreten. Nachbearbeitungstechniken können verwendet werden, um Inkonsistenzen zu beseitigen, Rauschen zu unterdrücken und fehlerhaft bestimmte Disparitäten zu korrigieren.
Diese Arbeit beschäftigt sich mit der Entwicklung und Auswertung von automatischen und benutzerunterstützten Nachbearbeitungstechniken zur Korrektur von 2D-plus-depth Videos. Diese Videos werden von mehreren Stereokameras aus unterschiedlichen Blickrichtungen aufgenommen. Ein interaktiver RGBD Algorithmus für die Videosegmentierung, der auf einer effizienten Kosten-Volumen-Filterung basiert, wird verwendet, um lokale Korrekturen durchzuführen und Objekte für 3D-animierte Rekonstruktionen zu extrahieren. Darüber hinaus sind state-of-the-art Filter implementiert, um Oberflächen zu glätten und Flimmern zu reduzieren. Schließlich werden die Techniken in ein grafisches Tool mit interaktiver Visualisierung von 2D-plus-depth Inhalten integriert.
Die Ergebnisse zeigen, dass die benutzergestützte Segmentierung die Extraktion von präzisen Masken und die Korrektur von inkonsistenten Disparitäten ermöglicht. Zusätzlich erweisen sich kantenerhaltende räumlich-zeitliche Filter wie der gewichtete Median Filter oder Guided Filter als Schlüsselkomponenten der Nachbearbeitung. Räumlich-zeitliche Filter glätten nicht nur Oberflächen, sondern verbessern auch die Konsistenz von Segmentierungsmasken. Schließlich ermöglicht das Hinzufügen eines interaktiven Visualisierungstools ein besseres Verständnis der Nachbearbeitungstechniken und anderer Elemente der Pipeline, wie zum Beispiel der Kalibrierung und des zugrunde liegenden Stereokorrespondenzalgorithmus.

Keywords:
2D-plus-depth video post-processing, spatio-temporal filtering, disparity maps, multi-view stereo reconstruction, interactive video segmentation


Electronic version of the publication:
https://publik.tuwien.ac.at/files/publik_274524.pdf


Created from the Publication Database of the Vienna University of Technology.