[Back]


Diploma and Master Theses (authored and supervised):

L. Eller:
"Learning Representations from Crowdsourced Network Benchmarks";
Supervisor: M. Rupp; Institute of Telecommunications, 2020; final examination: 08-20-2020.



English abstract:
In recent years there has been increased adoption of crowdsourced approaches in the realm
of mobile network benchmarking. Compared to controlled drive tests, such approaches
offer increased coverage - both in the spatial and temporal domain. However, obtaining
fair network benchmarks from user measurements requires additional context information,
as crowdsourced measurements are, by definition, not conducted under controlled condi-
tions. Such context information might include tariff-limits, indoor/outdoor detection,
or whether a user was static or moving during the measurement. The inference of such
indicators tends to be challenging due to the limited availability of parameters and the
tedious process of collecting labeled measurements.
Based on a data set I collect in a reference LTE eNodeB, this work tackles one of
the critical aspects in the realm of context inference - the detection of tariff-limited
measurements. This is achieved following a two-step approach: First, I process the
raw measurements into a vector consisting of carefully selected features that allow for
separation of the training data set almost without error. I further deploy a semi-supervised
machine learning algorithm operating on this feature vector. This approach based on label
spreading can also make use of unlabeled tests - thus tackling the limited availability
of labeled measurements. Results show that the classifier achieves an accuracy of 99%
when validated on a self-collected representative outdoor data set. After applying the
classifier to a crowdsourced data set and removing the limited tests, I obtain an operator
benchmark from the network view.
In a second step, I evaluate the application of autoencoders for representation learning
in this field. Using deep learning techniques to process network measurements in an
unsupervised setup, tackles the limited availability of labeled samples in a comprehensive
way. The obtained latent space representation allows for large scale analysis of high-
dimensional data sets and can act as the basis for a subsequent learning task. Evaluation
of the 2D latent space shows that the autoencoder learns a representation that separates
the collected data sets into limited and unlimited tests. When applied to crowdsourced
data, the autoencoder highlights the tariff-structure of different mobile network operators.
By following this two-step approach, this work covers the topic comprehensively. Besides
tackling the particular challenge of tariff-detection in crowdsourced network benchmark,
it also acts as a case study on how to conduct inference in an environment with only a
small number of labeled samples and a limited availability of parameters.

German abstract:
Zur Erstellung von Benchmarks von Mobilfunknetzen wird seit einigen Jahren verstärkt
auf Crowdsourcing zurückgegriffen. Da Crowdsourcing per Definition nicht unter kon-
trollierten Bedingungen durchgeführt wird, ist es jedoch erforderlich den Kontext einer
Messung zu berücksichtigen um faire Network-Benchmarks zu erhalten. Ausgehend von
einer Sammlung an selbst-durchgeführten Messungen an einem Referenz LTE eNodeB,
befasst sich diese Arbeit mit einem der kritischen Aspekte im Bereich der Kontextbe-
stimmung - die Klassifizierung einzelner Messungen in tarif-limitert oder unlimitiert.
Dafür werden zunächst die relevanten Merkmale einzelner Messungen in einem Feature-
Vector mit niedriger Dimension gebündelt. Es stellt sich heraus, dass diese Merkmale
bereits eine annährend fehlerfreie Klassifizierung des Trainingsdatensatzes ermöglichen.
Dieser Feature-Vector fungiert ferner als Grundlage für eine Klassifizierung basierend auf
Label-Spreading. Als Semi-Supervised Algorithmus bietet Label-Spreading die Möglichkeit
auch nicht-gelabelte Daten während des Trainingsprozess zu berücksichtigen. Durch die
somit erhöhte Anzahl an Trainingsdaten kann eine Accuracy von 99% erreicht werden.
Die Anschliessende Klassifizierung der Crowdsourcing-Daten ermöglicht die Entfernung
tarif-limitierted Messungen - die übrigen Tests dienen somit als Grundlage für ein
Netzbetreiber Ranking, das unabhängig von der jeweilgen Tarifstruktur ist.
Der zweite Teil dieser Arbeit beschäftigt sich mit der Verarbeitung von Crowdsourcing-
Messungen mithilfe von Autoencodern. Die Verwendung von Deep-Learning-Techniken zur
Verarbeitung von Network-Benchmarks in einem Unsupervised-Setup adressiert die be-
grenzte Verfügbarkeit von gelabelten Messungen. Die erhaltene Latent-Space Darstellung
ermöglicht die Auswertung von hochdimensionalen Datensätzen und kann als Grundlage
für nachfolgende Inference-Tasks dienen. Die Auswertung eines 2-D-Latent-Space zeigt,
dass der Autoencoder eine Darstellung lernt, die die gesammelten Datensätze in limitierte
und unlimitierte Tests unterteilt. Des Weiterene, hebt der Autoencoder bei Anwendung
auf Crowdsourcing-Daten die Tarifstruktur verschiedener Mobilfunknetzbetreiber hervor.
Durch diesen zweistufigen Ansatz wird das Thema umfassend behandelt. Neben der
Klassifizierung von Tarifflimitierungen in Crowdsourcing Network-Benchmarks dient die
Arbeit somit auch als Fallstudie zur Durchführung von Regressions- oder Klassifizierungs-
Aufgaben in einer Umgebung mit nur wenig gelabelten Datensätzen und einer begrenzter
Verfügbarkeit von Parametern.

Keywords:
Machine Learning, Representation Learning, Deep Learning, Network Benchmarks, 4G, LTE, RTR Netztest


Electronic version of the publication:
https://publik.tuwien.ac.at/files/publik_290055.pdf


Created from the Publication Database of the Vienna University of Technology.