[Zurück]


Diplom- und Master-Arbeiten (eigene und betreute):

B. Höller:
"Smart 3D Geometry Understanding within a Dynamic Large Triangulated Point Cloud";
Betreuer/in(nen): H. Kaufmann, A. Mossel; Institut für Visual Computing & Human-Centered Technology, 2019.



Kurzfassung deutsch:
Diese Arbeit untersucht die Nutzung verschiedener neuronaler Netze für Objekterkennung
in 3D gescannten Szenen. Dazu wird ein bestehendes verteiltes 3D Rekonstruktionssystem
adaptiert und um eine universelle Schnittstelle erweitert. Die automatische Objekterkennung
und Segmentierung ermöglicht die Interaktion mit Szenenobjekten und unterstützt
Nutzer bei Suchaufgaben. Serverseitig wird eine Umgebung mit einer RGB-D-Kamera
gescannt, um eine volumetrisches 3D Model zu erzeugen. Clientseitig werden diese Information
trianguliert, um diese mit der Unreal Engine in virtueller Realität zu erforschen.
Die RGB-Bilder der Kamera werden zusätzlich von einem neuronalen Netz interpretiert.
Die Objekte, die dieses Netz erkennt, werden in der 3D-Oberflächenrekonstruktion
entsprechend markiert. Durch Grundlegende strukturelle Änderungen, umfangreiche
Datenfilterung und einem speziellen Abstimmungsalgorithmus, wird die kumulative Echtzeit
Segmentierung der Szenenobjekte optimiert. Nummerische Filter beeinflussen die
Gesamterkennungsrate, visuelle Filter bestimmen die räumliche Abgrenzung von Szenenobjekten.
Schlussendlich werden in der 3D Rekonstruktion erkannte Szenenobjekte
von einem dreidimensionalen Rahmen umschlossen. Um eine effiziente Interaktion mit
diesen Objekten zu ermöglichen, wird ihre grobe Geometrie mit automatisch erzeugten
Collider Boxen repliziert. Die Fähigkeiten des entwickelten Systems werden mit zwei
verschiedenen neuronalen Netzen getestet. Dem SSD_Mobile_Net, welches erkannte
Objekte mit einer 2D-Bounding Box umrahmt und dem Mask-RCNN welches zusätzlich
eine pixel-basierte Segmentierungsmaske bereitstellt. Jeder Parameter der Filterpipeline
wurde analysiert, um die Gesamterkennungsrate sowie die räumliche Segmentierung der
Objekte zu optimieren. Für die Integration neuer neuronaler Netze wurden entsprechende
Richtlinien definiert.

Kurzfassung englisch:
Recent developments of machine learning algorithms resulted in outstanding findings
for many different fields of applied computer science. The superior object detection
performance of convolutional neural networks leads to lots of different neural network
types and architectures. This thesis explores the utilization of state of the art object
detection networks to achieve real time semantic annotations within a reconstructed
3D scene. An existing reconstruction framework is extended to implement an universal
interface for different neural network types. This allows for an easy exchange of the used
neural network and enables fast integration of future developments. With object detection
the geometric reconstruction is extended towards a semantic scene understanding. The
automatic annotation and segmentation of scene objects can be used to assists the user
with exploration tasks and enables interaction with scene objects. The existing framework
allows the distant live exploration of a scanned environment in virtual reality. It is based
on InfiniTAM and consists of three main modules. At server side an environment is
scanned with a RGB-D camera to generate a reconstruction of the scene. This 3D
representation is transmitted to the client side where it is triangulated to a mesh. Finally
this mesh can be explored within virtual reality using the Unreal Engine. The RGB
images of the camera stream are used as an input for a convolutional neural network.
The object detection results, represented as 2D bounding boxes or segmentation masks,
are projected onto the 3D surface reconstruction. Fundamental changes of the processing
pipeline allow the use of fully convolutional segmentation networks with long processing
times while keeping the live reconstruction and streaming capabilities of the framework.
An extensive filtering pipeline and a novel voting algorithm optimize the segmentation of
the scene objects. Finally annotated three-dimensional bounding boxes enclose detected
scene objects in the reconstruction. Additionally generated colliders represent their
coarse geometry. This enables efficient interaction with scene objects, increasing the
immersion of the user. The SSD_Mobile_Net box detection network and the Mask-
RCNN segmentation network are implemented to test the reconstruction framework
against a ground truth. Each parameter of the filter pipeline is evaluated to optimize the
performance of the developed framework. Numerical filters influence the overall detection
rate, visual filters determine the spatial segmentation of scene objects. The fusion of 2D
bounding boxes shows a better overall result than the projection of segmentation results.
Guidelines provide advice for the integration of new neural networks.

Schlagworte:
3D Geometry Understanding, Point Cloud, Reconstruction


Elektronische Version der Publikation:
https://publik.tuwien.ac.at/files/publik_284569.pdf


Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.