[Back]


Diploma and Master Theses (authored and supervised):

C. Arcanjo Marcelino:
"Data Locality-Aware Scheduling for Serverless Edge Computing";
Supervisor: S. Dustdar, T. Rausch; Institute of Information Systems Engineering, Distributed Systems Group, 2021; final examination: 2021-10-04.



English abstract:
Edge computing emerged, shifting the data processing from the cloud to the edge network. Edge computing leverages container orchestration tools such as Kubernetes to distribute functions across the cluster according to the devices' resources. These orchestration tools have limitations to match devices' capabilities with different workload requirements. Although new schedulers emerge to improve the workload by matching workload with devices' capabilities, they still struggle with function placement based on data locality. Data-intensive workloads can profit from edge network proximity and data-locality awareness to improve latency and bandwidth usage. Additionally, when the data processing is closer to its source, the data can be processed using edge resources, decreasing latency, bandwidth usage, and avoiding additional financial costs with cloud resources. Therefore, we propose in this thesis a data-locality enhancement for a container orchestration scheduler. To achieve that, we create (1) a storage index containing the file's metadata and (2) a network monitoring tool to provide a real-time availability bandwidth graph. Further, we introduce (3) a data-locality functionality on the Kubernetes Skippy Scheduler. Additionally, we introduce (4) a framework to identify the shortest route for a file transfer during the serverless function execution runtime. Our experiments show data locality-aware scheduling improves the function execution time up to 40%. Our framework prioritizes file transfers on edge networks, leading to nearly twice as much edge network traffic. Consequently, the data locality-aware scheduling decreases the ingress and egress of cloud network traffic significantly. The network traffic distribution based on edge resources availability reduces the financial costs with cloud services up to 85% compared to solutions without data locality.

German abstract:
Edge Computing ist entstanden und verlagert die Datenverarbeitung von der Cloud in das Edge-Netzwerk. Edge Computing verwendet die Ressourcen von Endgeräten, um Echtzeitdatenverarbeitung zu ermöglichen. Edge Computing erzeugt jedoch neue Herausforderungen, zum Beispiel beim platzieren von Funktionen, da Geräte heterogene und begrenzte Rechenkapazitäten aufweisen. Edge Computing systeme basieren häufig auf Container-Management-Tools wie Kubernetes, um Funktionen im Cluster zu verteilen und eine Überlastung der Resourcen zu vermeiden. Diese Orchestrierungs-Tools sind nur bedingt in der Lage, die Ressourcen der Geräte an die unterschiedlichen Workload-Anforderungen anzupassen. Um diese Einschränkungen zu überwinden, konzentrieren sich mehrere Untersuchungen auf die Identifizierung spezieller Gerätefähigkeiten und der Nutzung dieser Informationen zum optimalen Scheduling der Arbeitslast. Obwohl solche Scheduler die Geräte- und Netzwerkauslastung erheblich verbessern, indem sie die Characteristiker der Workloads mit den Ressourcen der Geräte, wie beispielsweise vorhandener GPU Beschleunigern abgleichen, bestehen nach wie vor Herausforderungen beim platzieren der Funktionen basierend auf der Datenlokalität.Daher präsentieren wir in dieser Diplomarbeit eine Erweiterung eines Orchestrierungs-Tools-Schedulers mit der Berücksichtigung von Datenlokalität. Um dies zu erreichen, haben wir (1) einen Speicherindex mit den Metadaten der im Cluster vorhandenen Datein und (2) ein Netzwerküberwachungs-Tool entwickelt, das einen Echtzeit-Verfügbarkeits-Bandbreitengraphen bereitstellt.Zusätzlich, erweitern wir (3) den Kubernetes Skippy Scheduler mit einem Datenlokalitäts-Feature. Zusätzlich, haben wir (4) ein Framework eingeführt, um den kürzesten Weg für eine Dateiübertragung während der Laufzeit der Serverless-Funktionsausführung zu identifizieren.Unsere experimente zeigen, dass die Berücksichtigung der Datenlokalität die Ausführungszeit von Serverless-Funktionen um bis zu 40% verbessert. Unser Framework priorisiert Dateiübertragungen in Edge-Netzwerken, was zu nahezu doppelt so viel Edge-Netzwerkverkehr führt. Folglich verringert die Berücksichtigung der Datenlokalität die Ein- und Ausgänge des Cloud-Netzwerkverkehrs erheblich. Die Verteilung des Netzwerkverkehrs basierend auf der Verfügbarkeit von Edge-Ressourcen reduziert die finanziellen Kosten mit Cloud-Diensten um bis zu 85% im Vergleich zu Lösungen ohne Datenlokalität.

Keywords:
data locality / network monitoring / data index / bandwidth graph / scheduling / edge / cloud / iot / faas / serverless


"Official" electronic version of the publication (accessed through its Digital Object Identifier - DOI)
http://dx.doi.org/10.34726/hss.2021.79260


Created from the Publication Database of the Vienna University of Technology.