[Back]


Diploma and Master Theses (authored and supervised):

E. Frantar:
"Nighttime Object Tracking for Intelligent Vehicles";
Supervisor: M. Gelautz; E193 Institut für Visual Computing and Human-Centered Technology, 2020; final examination: 2020-11-17.



English abstract:
Self-driving vehicles hold great promise and therefore have become a very active area of research in recent years. Although tremendous progress has been made, in particular through new powerful computer vision techniques involving convolutional neural networks (CNNs), widespread adoption of fully autonomous vehicles is likely still at least a few years away. A more immediate application of related methods are advanced assistance systems that work in conjunction with human drivers, for example, by warning them about difficult-to-spot obstacles. Especially under challenging driving conditions, like during the night or in bad weather, such support technologies could make a valuable contribution towards safer traffic. This thesis explores, implements and evaluates techniques that could form the basis of a night vision system for an intelligent car. More concretely, we study the problem of real-time two-dimensional multiple object tracking in videos, recorded by an in-vehicle camera, as a part of the CarVisionLight (CVL) project, while driving in rural areas at night. We assess how well state-of-the-art daytime models generalize to a nighttime setting. We study how to optimally utilize big existing driving datasets for training a CNN based object detection model that is particularly effective on the considerably differing CVL data. Then, we extend this detection model to a full tracking method while also applying several enhancements aimed at improving the performance in our specific setting. Eventually, we put all of our insights together and develop a prototype for an end-to-end tracking tool. Among the most significant findings of our various investigations are that (1) established general purpose daytime models are not suited for CVL data in our experiments, (2) training with only 25% of the images in the Berkeley Deep Drive dataset yields already 0.48 validation mAP (as opposed to 0.50 when training with the full dataset), (3) a model trained primarily on night data can also perform well during the day and (4) finetuning on higher resolution images leads to a mAP improvement of 0.07 at inference time. Further, our domain specific tracker adaptions provide a noticeable increase in tracking consistency (3 times less ID-switches) and recall (14% higher). Lastly, an extensive quantitative and qualitative evaluation shows that our tracking tool poses an effective solution to the problem at hand, both in terms of tracking/detection quality as well as in terms of execution speed, and has potential to stimulate future work.

German abstract:
Selbstfahrende Fahrzeuge haben großes Potential und sind deshalb in letzter Zeit eine besonders aktive Forschungsrichtigung. Trotz großer Fortschritte, im Speziellen durch neue mächtige Techniken des maschinellen Sehens basierend auf konvolutionalen neuronalen Netzwerken (CNNs), ist eine weite Verbreitung von vollständig autonomen Fahrzeugen wahrscheinlich noch mindestens ein paar Jahre entfernt. Eine deutlich unmittelbarere Anwendung von verwandten Methoden sind fortgeschrittene Fahrassistenzsysteme, welche mit dem Menschen am Steuer zusammenarbeiten, z.B. durch Warnungen vor schlecht ersichtlichen Hindernissen. Besonders bei anspruchsvollen Fahrbedingungen, wie in der Nacht oder bei schlechtem Wetter, könnten solche Unterstützungstechnologien einen wertvollen Beitrag zu erhöhter Fahrsicherheit leisten. Im Rahmen dieser Diplomarbeit werden Techniken erforscht, implementiert und evaluiert, welche die Basis für ein Nachtsichtsystem für intelligente Autos bilden könnten. Genauer gesagt, betrachten wir das Problem des zwei-dimensonalen multiplen Objektrackings in Echtzeit angewandt auf Videos, welche von Fahrzeugkameras bei Nachtfahrten im Rahmen des CarVisionLight-Projekts (CVL) in ländlichen Umgebungen aufgenommen wurden. Wir ermitteln, wie gut aktuelle Tageszeitobjektdetektoren nachts funktionieren. Wir untersuchen, wie große bestehende Verkehrsdatensätze optimal dazu genutzt werden können, einen CNN-basierten Objektdetektor zu trainieren, welcher besonders effektiv für die deutlich anderen CVL-Daten ist. Dann erweitern wir dieses Detektionsmodell zu einer vollständigen Trackingmethode, wobei wir einige speziell auf unseren Anwendungskfall abgestimmte Erweiterungen integrieren. Schließlich kombinieren wir all unsere Erkenntnisse, um einen Prototypen für ein selbständiges Trackingtool zu entwicklen. Zu den interessantesten Entdeckungen im Zuge unserer Untersuchungen gehören, dass (1) etablierte allgemeine Tageslichtmodelle ungeeignet für CVL-Daten sind, (2) Training mit nur 25% der Berkeley Deep Drive Bilder bereits 0.48 Validierungs-mAP liefert (verglichen mit 0.5 für alle Daten), (3) primär auf Nachtdaten trainierte Modelle auch gut untertags funktionieren und (4) ein Finetuning auf Bildern mit höherer Auflösung zu 0.07 mAP Inferenzverbesserungen führt. Weiters führen die domänenspezifischen Trackeradaptierungen zu einem signifikaten Anstieg der Trackingkonsistenz (1/3 weniger ID-Switches und 14% höherer Recall). Schlussendlich zeigt eine quantitative sowie qualitative Evaluierung, dass unser Tool eine effektive Lösung für die behandelte Problemstellung darstellt, sowohl bezüglich Tracking-/Detektionsqualität als auch Ausführungszeit, und Potential für zukünftige Weiterentwicklung bietet.

Keywords:
maschinelles Lernen;Computer Vision;Objektverfolgung;autonomes Fahren


Electronic version of the publication:
https://publik.tuwien.ac.at/files/publik_290785.pdf



Related Projects:
Project Head Margrit Gelautz:
CarVisionLight


Created from the Publication Database of the Vienna University of Technology.