[Zurück]


Diplom- und Master-Arbeiten (eigene und betreute):

G. Zankl:
"Semi-automatic Annotation on Image Segmentation Hierarchies";
Betreuer/in(nen): Y. Haxhimusa; Institute of Computer Graphics and Algorithms, Pattern Recognition and Image Processing, PRIP, 2012; Abschlussprüfung: 19.11.2012.



Kurzfassung deutsch:
Wenn es darum geht verscheidene Methoden der Objekterkennung in nat urlichen
Bildern zu vergleichen, stehen diverse etablierte Aufgaben im Mittelpunkt.
Beispiele daf ur sind Bildsegmentierung, semantische Bildsegmentierung
und Objekterfassung. Bildsegmentierung ist die Aufgabe Bildpixel, die
zur selben Region oder zum selben Objekt geh oren, zu gruppieren. Semantische
Bildsegmentierung ist die Aufgabe jedem Bildpixel eine semantische
Bezeichnung zuzuordnen. Eine semantische Bezeichnung kann ein Objekt
sein: zum Beispiel Auto, Person, Geb aude; oder eine Klasse von Bereichen in
einem Bild: Himmel, Boden, vertikale Flaeche. Objekterfassung ist die Aufgabe
Aufkommen und Position eines Objektes in einem Bild vorherzusagen, indem
zum Beispiel der Rahmen (Bounding Box) eines Objekts bestimmt wird.
Traditionelle Aufgaben der Objekterkennung haben gewisse Einsch ankungen,
wie etwa Mehrdeutigkeit in allgemeinerem Kontext. Zum Beispiel gibt es oft
mehrere Bildsegmentierungen f ur ein nat urliches Bild, die ein Mensch als richtig
beurteilen w urde, abh angig davon welches Objekt besonders interessant
f ur die entsprechende Person ist. Wir stellen die Frage: "Gibt es eine Alternative,
die diese Einschr ankungen uberwinden kann?" Als Beispiel schlagen
wir die Aufgabe vor, interaktiv jedem Segment einer hierarchischen Segmentierung
eine semantische Bezeichnung zuzuordnen. Das Ergebnis kann dann
als ein Stapel semantischer Bildsegmentierungen dargestellt werden, wobei es
eine Inklusionsrelation zwischen Segmenten angrenzender Segmentierungen
gibt. Der Fokus dieser Arbeit ist es, eine L osung der vorgeschlagenen Aufgabe
vorzustellen und auftretende Vor- sowie Nachteile zu diskutieren. Der
gr o te Nachteil ist, dass es schwieriger ist passende Ground Truth zu nden
- in unserem Fall besteht diese aus beschrifteten hierarchischen Segmentierungen.
Au erdem ist die Qualit at der zugrundeliegenden Segmentierung im
Allgemeinen sub-optimal f ur natuerliche Bilder. Der wesentliche Vorteil ist,
dass die Struktur der Beschriftungen in der Ground Truth dazu verwendet
werden kann, dem Benutzer zu helfen neue hierarchische Segmentierungen zu
beschriften. Wir pr asentieren ein Framework, das eine Feedbackschleife beinhaltet,
bei der eine Beschriftung vom Framework vorhergesagt wird und der
Benutzer einen oder mehrere falsch bezeichnete Segmente selektieren und die
korrekte Bezeichnung zuordnen kann. Dieser Vorgang kann wiederholt werden,
bis der Nutzer zufrieden mit dem Ergebnis ist. Die Vorhersage der Beschriftung
wird mit einem Conditional Random Field (CRF) berechnet, das
adaptiert wird, um das Modell sowohl auf die hierarchische Segmentierung
als auch auf die Benutzereingaben zu konditionieren. Das Framework wird
auf zwei verschiedenen Datens atzen evaluiert, indem die Qualit at zu einer
einfachen Baseline verglichen wird. Diese Baseline besteht aus einer einzelnen
Vorhersage der Beschriftung gefolgt von vollstaendig manueller Korrektur
der Bezeichnungen, ohne erneute Vorhersagen. Ergebnisse zeigen eine wesentliche
Di erenz in Qualitaet, nach mehreren Benutzereingaben. Zum Beispiel
nach 20 Interaktionen korrigiert die Baseline 20 falsch bezeichnete Segmente,
w ahrend das CRF-basierte Framework ungefaehr 130 Bezeichnungen auf
beiden Datens atzen korrigiert. Das Experiment zeigt das Potential von Structured
Prediction f ur die gegebene Aufgabe

Kurzfassung englisch:
In the eld of object recognition in natural images, a variety of established
tasks exist, which are focus of attention when it comes to comparing diffierent
methods, for example image segmentation, semantic image segmentation or
object detection. Image segmentation is the task of grouping pixels in an
image that belong to the same region or object. Semantic image segmentation
is the task of assigning a semantic label to each pixel of the image. The
semantic labels can be objects: for example car, person, building; or classes
of areas in an image: sky,
oor, vertical surface. Object detection is the task
of predicting occurrence and position in an image, for example by determining
a bounding box of the object. Traditional object recognition challenges
have limitations such as ambiguity in more general contexts. For example
for a single natural image, there are often multiple image segmentations a
human would consider to be correct, depending on the object that person is
particularly interested in. We raise the question: "Is there a difierent task,
that overcomes these limitations?" As an example we propose the task of
interactively assigning a semantic label to each segment of a segmentation
hierarchy. The result can be represented as a stack of semantic segmentations,
with an inclusion-relationship between segments of adjacent segmentations.
The focus of this work is to provide a solution to this task and discuss advantages
and problems that arise. The main disadvantage is that it is harder to
obtain suitable ground-truth that consists of annotated segmentation hierarchies.
Also the quality of underlying segmentation methods is, in general,
sub-optimal for natural images. The main advantage is that the structure
implied by the occurrence of labels in the ground-truth can be used to aid
the user in labeling the segments of the hierarchy. We propose a framework
that consists of a feedback loop, where a label prediction is provided by the
framework and a human user may select one or more misclassified segments
and assign the correct label. This process can be repeated until the user is
satis ed. The prediction is done using a Conditional Random Field (CRF)
that is modi ed so that we are able to condition the model on the segmentation
hierarchy as well as the user input. The framework is evaluated on two
distinct datasets by comparing its quality to a straight-forward baseline. The
baseline consists of a single prediction step of the proposed framework followed
by fully manual correction of the segments without new predictions. The
results show a significant difference in quality, after several user interactions.
For example after 20 user interactions the baseline adjusts 20 misclassified
segments, while the CRF-based framework adjusts about 130 misclassified
segments for the two datasets. This experiment illustrates the potential of
structured prediction for the proposed task

Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.