[Back]


Diploma and Master Theses (authored and supervised):

M. Mazurek:
"Visual Active Learning for News Stream Classification";
Supervisor: E. Gröller, M. Waldner; E193-02, 2019; final examination: 2019-10-15.



English abstract:
In many domains, the sheer quantity of text documents that have to be parsed increases daily. To keep up with this continuous text stream, a considerable amount of time has to be invested. We developed a classification interface for text streams that learns user-specific topics from the userīs labeling process and partitions the incoming data into these topics.
Current approaches that try to derive content categorization from a vast number of unstructured text documents use pre-trained learning models to perform text classification. These models assign predefined categories to the text according to its content. Depending on the use case, a userīs interests might not coincide with the given categories. The model cannot adapt to changing terminology that was not present during training. Besides these factors, users often do not trust pre-trained models as they are a black box for them.
To solve this problem, our application lets users define a classification problem and train a learning model through interaction with a Star Coordinates visualization. The approach that makes this interaction eÿcient is a variant of active learning. This active learning variant states that a learning model can achieve greater accuracy with fewer labeled training instances, if a user provides data purposefully from which it learns. We adapted this strategy for text stream classification by visualizing the topic aÿliation probabilities of the learning model and providing novel interaction tools to enhance the modelīs performance iteratively.
By simulating di˙erent selection strategies common in active learning, we found that our visual selection strategies correspond closely to the classic active learning selection strategies. Further, users performed on par with the best simulated selection strategies in the results from our preliminary user study. Our evaluation concludes that there are benefits from incorporating information visualization into the active learning process.

German abstract:
In vielen Bereichen nimmt die Menge an relevanten Textinformationen täglich zu. Viel Zeit muss in diesen kontinuierlichen Strom an Information investiert werden, um sich auf dem neuesten Stand zu halten. Deshalb haben wir ein visuelles Klassifizierungsinterface für Text-Stream-Daten entwickelt. Das Interface lässt Benutzer Daten klassifizieren um benutzerspezifische Themengebiete zu lernen.
Aktuelle Ansätze, die große Mengen an unstrukturierten Daten kategorisieren, verwenden oft vortrainierte Modelle des Maschinellen Lernens zur Textklassifizierung. Diese Modelle ordnen Textdokumente basierend auf deren Inhalt vordefinierten Kategorien zu. Jedoch, abhängig vom Anwendungsfall, können die Interessen eines Anwenders nicht in den vorgegebenen Kategorien vertreten sein. Des Weiteren sind vortrainierte Modelle nicht in der Lage, sich an neue Terminologie anzupassen. Abgesehen von diesen Faktoren, vertrauen Anwender solchen Modellen oft nicht, weil sie die Entscheidung des Modells nicht nachvollziehen können.
Um dieses Problem zu lösen, lässt unsere Anwendung den Benutzer ein Klassifizierungs-problem definieren und ein Modell des Maschinellen Lernens durch Interaktion mit einer Star Coordinates Visualisierung trainieren. Das Konzept hinter unserer Anwendung ist eine Variante des aktiven Lernens, welches aussagt, dass ein Modell des Maschinellen Lernens eine höhere Genauigkeit mit weniger Trainingsdaten erreichen kann, wenn ein Benutzer zielgerichtet Daten klassifiziert, von welchem es lernen kann. Diese Strategie adaptieren wir für Text Stream Daten, indem wir die Zugehörigkeitswahrscheinlichkeit zu einem Themengebiet des Modells visualisieren und Interaktionswerkzeuge zur Verfügung stellen, welche es ermöglichen, das Modell iterativ zu verbessern.
Durch die Simulation von üblichen Selektionsstrategien des aktiven Lernens haben wir gezeigt, dass unsere Strategien, welche auf der Visualisierung basieren, den klassischen Strategien entsprechen. In unserer vorläufigen Nutzerstudie haben die von Anwender trainierten Modelle so gut wie die besten simulierten Selektionsstrategien abgeschnitten. Deshalb kommen wir zu dem Schluss, dass die Verbindung von aktiven Lernen mit Informationsvisualisierung vorteilhaft ist.


Electronic version of the publication:
https://publik.tuwien.ac.at/files/publik_282668.pdf


Created from the Publication Database of the Vienna University of Technology.