[Back]


Diploma and Master Theses (authored and supervised):

T. Ziegelbecker:
"A Visual Approach for Exploring Quality Problems of Multivariate and Time-Oriented Data";
Supervisor: S. Miksch, B. Alsallakh, M. Bögl, C. Bors; Institut für Visual Computing and Human-Centered Technology, 2016; final examination: 2016-10-03.



English abstract:
Today we produce and capture data at almost each and every step. In many cases, this data is imperfect, due to various defects such as sensor variability, errors in measurement, or by human error. Analysts and decision makers unknowingly base their decisions on such imperfect data, which often leads to poor decisions and high costs. One way to address this problem is to visualize data quality problems to make decision makers more aware of them. Despite existing literature proving that data quality visualization improves decision-making, only little research has been conducted in the field of univariate and multivariate data quality visualization.
Therefore, the focus of this work will be on incorporating data quality visualization into the data exploration process, where the main contribution is to provide a novel approach for visualizing data quality problems of multivariate time-oriented data in both, overview and detail. For this purpose, a particular domain problem from the drilling industry will be used. The data itself is provided from multiple sensors that transmit time-stamped raw drilling-data, which contains data quality problems such as missing values, invalid values and outliers.
In this work I examine existing data quality visualizations for multivariate time-oriented data. Based on this literature research I develop and discuss several design options in overview and detail for visualizing the data quality problems identified in combination with the domain problem. In a subsequent step I implement selected design approaches in a prototype and evaluate them in the context of expert interview sessions. The results of these session are then reported and discussed, providing further rationales for the design choices made. In addition, the results also provide arguments for specific interaction techniques (i.e., combined interactive views) as well as they oer insights into algorithms and technologies used. Overall, the results give conclusions for selecting data quality visualization approaches and make suggestions for further research areas such as the aggregation algorithms for data quality problems.

German abstract:
Bei annähernd jedem Schritt den wir heutzutage tätigen werden Daten generiert und gesammelt. In vielen Fällen handelt es sich dabei allerdings um fehlerhafte Daten, wobei die Gründe dafür sehr vielfältig sein können. Diese reichen von Mängel wie beispielsweise Messungenauigkeit, über Messfehler bis hin zu menschlichem Versagen. Problematisch werden die fehlerhaften Daten vor allem dann, wenn zum Beispiel Analysten unwissentlich ihre Entscheidungen auf deren Basis treffen. Mögliche Konsequenzen aus diesen Entscheidungen können beispielweise falsche Schlussfolgerungen sein die wiederum zu höheren Kosten führen können. Eine Möglichkeit dieses Problem zu adressieren, ist es die Qualität der fehlerhaften Daten zu visualisieren um damit bei den Entscheidungsträgern ein Bewusstsein dafür zu schaffen. Darüber hinaus haben Forschungsergebnisse gezeigt, dass die Visualisierung von Datenqualitätsproblemen die Entscheidungsfindung verbessert. Trotz dieser Beobachtung wurde bisher auf dem Gebiet der Datenqualitätsvisualisierung von uni- und multivariaten Daten nur wenig Forschung betrieben.
Daher liegt der Schwerpunkt dieser Arbeit auf der Visualisierung von Datenqualitätsproblemen und ihrer Integration in den Datenexplorationsprozess. Das primäre Ziel dabei ist es einen neuen Ansatz zu finden, der die Qualitätsprobleme von multivariaten und zeitorientierten Daten sowohl im Überblick, als auch im Detail darstellt. Zu diesem Zweck wird ein Domänenproblem aus der Bohrindustrie herangezogen. Bei den von mehreren Sensoren zur Verfügung gestellten Daten handelt es sich um Bohrdaten (inkl. Zeitstempel), welche unter anderem fehlende Werte, ungültige Werte und Ausreißern enthalten. Zur Lösung dieser Probleme werden vorhandenen Visualisierungsmöglichkeiten bewertet und auf deren Grundlage Gestaltungsmöglichkeiten entwickelt, welche Datenqualitätsprobleme sowohl im Überblick als auch im Detail darstellen. In einem nachfolgenden Schritt werden die zuvor getroffenen Designentscheidungen im Rahmen eines Prototypen implementiert und im Zuge von Experteninterviews evaluiert.
Die Ergebnisse dieser Interviews werden zusammengefasst, diskutiert und als Argumentationsgrundlage für zukünftige Designentscheidungen festgehalten. Darüber hinaus bieten die Ergebnisse auch Argumente für bestimmte Interaktionstechniken sowie Einblicke in die zur Implementierung eingesetzten Algorithmen und Technologien. Die abschließen- den Ergebnisse lassen Schlussfolgerungen hinsichtlich der Auswahl von Ansätzen zur Visualisierung von Datenqualitätsproblemen zu und bilden die Grundlage für weitere Forschung.

Keywords:
Data quality, time-oriented data, visual analytics


Electronic version of the publication:
https://publik.tuwien.ac.at/files/publik_280364.pdf


Created from the Publication Database of the Vienna University of Technology.