Publication Entry

[Back]

Diploma and Master Theses (authored and supervised):

K. Lasinger:
"Dense Stereo Matching for Urban Outdoor Scenes";
Supervisor: M. Gelautz, K. Schindler, S. Galliani; Institut für Softwaretechnik und interaktive Systeme, 2015; final examination: 2015-01-12.

English abstract:

Dense stereo matching is an active research topic in the area of Computer Vision. Depth information is extracted from a dense correspondence search between two or more images of the same scene, taken from different camera positions. Extracted depth information can be used for various applications such as robotic navigation, automated driving or 3D reconstruction of objects and buildings.
In this work we will focus on dense stereo matching for urban outdoor environments. We start from the recently published PatchMatch Stereo approach by Bleyer et al. [8] since it seems suitable for our purpose in terms of memory consumption and scalability for high resolution images. We further extend their idea to multi-view stereo. Our algorithm is tested on different urban outdoor image sets, including image pairs from cameras mounted on a car, panoramic images of urban areas as well as multi-view data from historic sites and aerial image data. For the correspondence search, experiments with different cost functions are performed.
PatchMatch Stereo is a local stereo matching approach that estimates a 3D plane at each pixel position, hence, extracting not only disparity values but also surface normals. The Patch-Match Stereo algorithm is based on a randomized approximate correspondence search. Initially a random plane is selected for each pixel position. Good plane estimates are then propagated to neighboring pixels and further refined in an iterative process.
We transform the PatchMatch Stereo approach to scene space in order to directly estimate depth values and work with non-rectified images. Mapping from one image to another is facilitated by plane induced homographies, utilizing the estimated planes (normal and depth) at each pixel position. Processing in scene space allows us to directly combine multiple images.
The major contribution of our work is a multi-view stereo matching approach. The use of more than two images facilitates the handling of partially occluded image regions and therefore leads to more robust results. Our approach is quantitatively evaluated on existing benchmark data for two-view and multi-view image sequences. Results are compared with reported values of state-of-the-art stereo matching methods.

German abstract:

Dichtes Stereomatching ist ein aktives Forschungsgebiet im Bereich der Computer Vision. Ziel ist es, Tiefeninformationen aus zwei oder mehr 2D-Bildern einer Szene zu extrahieren. Hierfür wird eine Korrespondenzsuche über alle Pixel der verwendeten Bilder angewandt. Ermittelte Tiefeninformation kann für verschiedene Anwendungen verwendet werden. Beispiele sind die automatisierte Navigation von Robotern und Autos oder die 3D-Rekonstruktion von Gegenständen
und Gebäuden.
In dieser Arbeit werden wir uns auf dichtes Stereomatching für urbane Outdoor-Bereiche konzentrieren. Der kürzlich publizierte PatchMatch Stereo Ansatz von Bleyer et al. [8] scheint in Hinsicht auf Speicherverbrauch und Skalierbarkeit für hochauflösende Bilder für unsere Zwecke geeignet. Wir starten von dieser Idee und erweitern den Ansatz, um die Verarbeitung von mehr als zwei Bildern zu ermöglichen. Wir testen unseren Algorithmus an verschiedenen Bilddaten im
urbanen Außenbereich: Stereobilder aufgenommen von einem fahrenden Auto, Panoramabilder aus städtischen Gebieten, Bildsequenzen von historischen Stätten und Luftbilder. Für die Korrespondenzsuche werden Experimente mit unterschiedlichen Kostenfunktionen durchgeführt.
PatchMatch Stereo ist eine lokaler Stereomatching Ansatz, der an jeder Pixelposition eine 3D-Ebene schätzt. Dadurch werden nicht nur Disparitätswerte sondern auch Oberflächennormalen ermittelt. Der PatchMatch Stereo Algorithmus basiert auf einer randomisierten, approximierten Korrespondenzsuche. Zunächst wird für jede Pixelposition eine zufällige Ebene gewählt. Gute Ebenenschätzungen, die niedrige Matching-Kosten aufweisen, werden daraufhin an benachbarte Pixel weitergegeben und in einem iterativen Prozess weiter verfeinert.
Wir transformieren den PatchMatch Stereoansatz vom Disparitätsraum in den 3D Szenenraum, um eine direkte Bestimmung von Tiefenwerten zu ermöglichen. Dies ermöglicht zusätzlich das Arbeiten mit nicht-rektifizierten Bildpaaren. Die Abbildung von einem Kamerabild zum anderen wird durch Ebenen-induzierte Homographien ermöglicht. Hierfür wird die geschätzte Ebene (Normale und Tiefenwert) an jeder Pixelposition verwendet. Das Arbeiten im Szenenraum ermöglicht die direkte Verarbeitung von mehr als zwei Bildern, da keine Rektifizierung notwendig ist.
Dies führt zum Hauptbeitrag dieser Arbeit: ein Multi-View Stereo Matching-Ansatz. Die Verwendung von mehr als zwei Bildern erleichtert die Handhabung von teilweise verdeckten Bildbereichen und führt dadurch zu robusteren Ergebnissen. Unser Ansatz wird quantitativ auf bestehenden Benchmarks für 2-View und Multi-View Bildsequenzen ausgewertet. Die Ergebnisse werden des Weiteren mit anderen State-of-the-Art Stereomatching Methoden verglichen.

Electronic version of the publication:

http://publik.tuwien.ac.at/files/publik_238316.pdf

Created from the Publication Database of the Vienna University of Technology.