Publication Entry

[Back]

Doctor's Theses (authored and supervised):

B. Alsallakh:
"Visual Analytics of Large Homogeneous Data - Categorical, Set-typed, and Classification Data";
Supervisor, Reviewer: S. Miksch, H. Hauser, J. Stasko; Institute of Software Technology and Interactive Systems, 2014; oral examination: 2014-09-03.

English abstract:

A multidimensional data set is homogeneous when the dimensions have the same nature. For
instance, these dimensions can represent the probabilities for a sample to belong to different
classes, or item memberships of multiple sets. Such data appear very often in different domains
to describe how a relatively large number of items are related to a relatively small number of
classes or categories. For examples, a homogeneous data set might record which genes (rows)
appear in which individuals (columns), or how many times books (rows) are sold in different
countries (columns). Analyzing these relations reveals several patterns in the data such as genes
that are observed frequently or never together, or books that sell mostly in a specific country.
Both automated methods and visualization have been applied to analyze homogeneous data.
However, state-of-the-art visualization techniques are lacking either in scalability with the num-
ber of data points or in addressing the specific nature of different classes of homogeneous data,
and the tasks associated with them.
In this dissertation, I propose novel
visual metaphor
and
interactive exploration environ-
ment
for analyzing large homogeneous data. The proposed
wheel
metaphor allows analyzing
and selecting the data points based on their relations with the different dimensions. Moreover, it
emphasizes the dimensions and the relations between them as the central part of the visualiza-
tion, and allows analyzing these relations based on the data points defining them. The proposed
interactive exploration environment
allows analyzing different aspects of the data at multiple
levels of detail. I illustrate how the proposed approach can be applied to analyze three classes of
homogeneous data:
set-typed data
,
probabilistic classification data
, and
categorical data
. Each
class has its own characteristics that imply specific requirements and tasks. These different tasks
are supported by the proposed approach, thanks to its flexibility and extensibility.
I demonstrate the applicability of my approach by means of usage scenarios and case stud-
ies with various datasets from multiple domains. Also, both user studies and interviews with
domain experts were conducted to assess the utility of the proposed methods. The major ad-
vantages of the proposed visual metaphor is its scalability in the number of data points, thanks
to dedicated aggregation methods for homogeneous data, and to the rich sets of interactions it
supports to select the data based on a variety of criteria. The major disadvantages are the com-
plexity of the visual metaphor that requires sufficient user training, the limited scalability in the
number of dimensions, and the low sensitivity to small differences in the data being analyzed.
Nevertheless, the wheel metaphor is suited to gain an overview of large homogeneous data, with
complementary analytical methods, interactions, and coordinated views being used to cope with
the limitations. As a result, novel analysis possibilities and insights in the data are possible,
beyond state-of-the-art techniques.

German abstract:

Homogene multivariate Daten umfassen eine Vielzahl an Variablen mit ähnlichem Verhalten/ ähnlicher Struktur. Diese Variablen können Unterschiedliches repräsentieren - zum Beispiel die Wahrscheinlichkeit, mit der ein Element in eine bestimmte Gruppe gehört, oder die Zuordnung eines Elementes zu einer Reihe von Mengen. In vielen Anwendungsgebieten werden solche
Daten genutzt, um die Zugehörigkeit von einer relativ großen Menge an Elementen zu einer relativ kleinen Anzahl an Gruppen oder Kategorien zu beschreiben. Eine homogene Tabelle zeigt beispielsweise, welche Gene (Zeilen) in welchem Individuum (Spalten) vorkommen, oder wie oft ein Buch (Zeilen) in verschiedenen Ländern (Spalten) verkauft wurde. Die Analyse solcher Zusammenhänge ermöglicht es, Muster in den Daten zu erkennen - etwa Gene, die oft oder nie zusammen vorkommen, oder Bücher, die hauptsächlich in bestimmten Ländern verkauft werden. Für die Untersuchung derartiger Muster in großen homogenen Datenmengen wurden bereits automatisierte Methoden und Visualisierungen angewandt. Allerdings mangelt es selbst bei der Verwendung neuester Visualisierungstechniken an der Skalierbarkeit in Bezug auf die Anzahl von Elementen, und an der fehlenden Miteinbeziehung der speziellen Eigenschaften, die verschiedene Gruppen homogener Daten, bezogen auf die konkreten Aufgabenstellungen,
haben.
In dieser Dissertation stelle ich neue visuelle Metaphern und interaktive Explorationsumgebungen für die Analyse großer homogener Daten vor. Die vorgeschlagene Rad-Metapher ermöglicht es, basierend auf den Zusammenhängen mit anderen Spalten, Elemente auszuwählen und zu untersuchen. Darüber hinaus liegt das Hauptaugenmerk der Visualisierung auf den Spaltenvariablen und den Relationen zwischen den Spalten. Dieser Fokus ermöglicht die Analyse dieser Beziehungen basierend auf den Zeileneinträgen, die diese Relationen definieren. Die interaktive Explorationsumgebung erlaubt es, verschiedene Aspekte der Daten und der Element-Attribute in verschiedenen Detailgraden zu betrachten. Ich veranschauliche meinen Ansatz mit drei un terschiedlichen Arten von homogenen Daten: mengenartige Daten, wahrscheinlichkeitstheore tische Klassifikationsdaten, und kategorische Daten. Jede dieser drei Gruppen weist bestimmte Charakteristika in den Daten auf, wie etwa spezielle Anforderungen und Aufgaben. Damit zeige ich, dass die visuelle Metapher ausreichend flexibel und erweiterbar ist, um diese Aufgaben skalierbar zu lösen.
Ich belege die Anwendbarkeit meines Ansatzes anhand von Usage-Szenarien, Insight-Studien und Fallstudien mit unterschiedlichen Daten aus mehreren Domänen. Zur Beurteilung der Brauch barkeit der vorgestellten Methoden wurden Benutzerstudien und Interviews mit Experten durchgeführt. Die größten Vorteile der visuellen Metapher sind die Skalierbarkeit in Bezug auf die Anzahl der Elemente anhand von geeigneten Aggregationsmethoden für homogene Daten, sowie die zahlreichen Interaktionsmöglichkeiten, um die Auswahl der Daten basierend auf einer Vielzahl von Kriterien zu unterstützen. Nachteile zeigen sich in der Komplexität der visuellen Metapher, welche es für den Benutzer notwendig macht, diese ausreichend zu erlernen, in der limitierten Skalierbarkeit in Bezug auf die Anzahl der Spalten und in der niedrigen Sensitivität, kleine Unterschiede in den Relationen zu analysieren. Dennoch ist die Rad-Metapher geeignet, die Limitierungen mit komplementären analytischen Methoden, Interaktionen und koordinierten
Ansichten zu überbrücken und damit einen Überblick über große homogene Daten zu erlangen.
Als Ergebnis entstehen neuartige Analysemöglichkeiten sowie neuartige Erkenntnisse in den Daten, und zwar über den aktuellen Stand der Technik hinaus.

Keywords:

visual analytics; set visualization; classification data; classifier analysis;

Electronic version of the publication:

http://publik.tuwien.ac.at/files/PubDat_235153.pdf

Related Projects:

Project Head Silvia Miksch:
CVAST: Centre for Visual Analytics Science and Technology (Laura Bassi Centre of Expertise)

Created from the Publication Database of the Vienna University of Technology.