Publication Entry

[Back]

Diploma and Master Theses (authored and supervised):

N. Haimerl:
"Blockchain-based Federated Learning with Data Verification through Zero-Knowledge Proofs";
Supervisor: S. Schulte, S. Tai; Institute of Information Systems Engineering, Distributed Systems Group, 2022; final examination: 2022-04-25.

English abstract:

The Internet of Things is rapidly expanding and generates considerably more data, providing modern artificial intelligence with the necessary resources to become highly effective. State of the art distributed learning systems make use of this data and conventionally train their models on a centralized cloud hosting vasts amounts of computational power to process all the data. Concerns over privacy and centralization of these types of systems have increased recently. Data that is generated by devices in the Internet of Things often carry highly sensitive information and are therefore vulnerable for exploits either during transfer of the data or at the cloud servers themselves. To alleviate this issue federated learning was developed, ensuring that sensitive data does not have to leave the devices which promises a high degree of privacy. Furthermore, the industry of cloud providers is exceedingly consolidated which leaves Internet of Things devices participating in federated learning with little options to choose from when it comes to selecting a Cloud provider that aggregates all the incoming model updates. Fraudulent, malicious or simply careless behaviour of cloud providers can result in exploitation of the users of these devices. This issue is amplified by the fact that the cloud's procedure according to which the federated learning model is trained is usually not transparent to the public. Therefore, users who provide the data to train the model have no insight in what their data is used for. A blockchain-based federated learning model solves this issue of transparency by conducting training through smart contracts which are disclosed to the public. However, a blockchain-based federated learning approach still does have weaknesses when it comes to proving the validity and participation degree of the training participants. It can lead to dishonest behaviour to save computational resources among the training participants. Zero-knowledge proofs can ensure that the economic cost of acting maliciously increase vastly and therefore guarantee a higher degree of honest behaviour of training participants.In this thesis, a blockchain-based federated learning system with zero-knowledge proof data verification is proposed. The performance of the model is evaluated against a non-federated approach. Furthermore, the overhead caused by the use of zero-knowledge proof data verification is discussed in detail. The proposed system succeeds in providing the desired degree of transparency, decentralization, privacy and honest training behaviour. The federated learning model's accuracy performance is unaffected by the overhead of data verification. Predictive quality of the model successfully converges towards its non-distributed equivalent, which suggest that use of the blockchain-based federated learning approach is not associated with a performance decrease. However, there is a considerable amount of overhead associated with the use of the zero-knowledge proof data verification. While its usability strongly depends on the computational power and memory resources of the training participants, validity of the training updates can be guaranteed and validated publicly, on-chain and at any time without any interaction with the training participant.

German abstract:

Das Internet der Dinge dehnt sich rasant aus und generiert immer mehr Daten, wodurch moderne künstliche Intelligenz mit den notwendigen Datenressourcen ausgestattet wird, um präzise Vorhersagen treffen zu könnnen. Hochmoderne verteilte Lernsysteme nutzen diese Daten und trainieren ihre Modelle konventionell in einer zentralisierten Cloud, die sehr großen Mengen an Rechenleistung bereitstellt, um alle Daten zu verarbeiten.Bedenken hinsichtlich Datenschutz und Zentralisierung dieser Art von Systemen haben in letzter Zeit zugenommen. Daten, die von Geräten im Internet der Dinge generiert werden, enthalten oft hochsensible Informationen und sind daher anfällig für Angriffe, entweder während der Übertragung der Daten oder auf den Cloud-Servern selbst. Um dieses Problem zu lösen, wurde föderiertes Lernen entwickelt, das sicherstellt, dass sensible Daten die Geräte nicht verlassen müssen, was ein hohes Maß an Privatsphäre verspricht. Darüber hinaus ist die Branche der Cloud-Anbieter überaus konsolidiert, was dazu führt, dass Geräte des Internets der Dinge, die am föderierten Lernen teilnehmen, nur wenige Optionen zur Auswahl haben, wenn es um die Wahl des Cloud Anbieters geht, der das Aggregieren der lokal Model Updates übernimmt. Betrügerisches, böswilliges oder einfach fahrlässiges Verhalten von Cloud-Anbietern kann zur Ausbeutung der Benutzer dieser Geräte führen. Verstärkt wird diese Problematik dadurch, dass das Vorgehen der Cloud, nach dem das föderierte Lernmodell trainiert wird, in der Regel für die Öffentlichkeit nicht transparent ist. Daher haben Benutzer, die die Daten zum Trainieren des Modells bereitstellen, keinen Einblick, wofür ihre Daten verwendet werden. Ein Blockchain-basiertes föderiertes Lernmodell löst dieses Problem der Intransparenz, indem es Smart Contracts zur Ausführung des förderierten Lernens verwendet. Diese sind naturgemäß der Öffentlichkeit bekannt da sie auf der Blockchain einsehbar sind.Allerdings hat ein Blockchain-basierter föderierter Lernansatz noch Schwächen, wenn es darum geht, die Validität der Beiträge und den Teilnahmegrad der Trainingsteilnehmer nachzuweisen. Es kann zu unehrlichem Verhalten führen, um Rechenressourcen bei den Geräten der Trainingsteilnehmern zu sparen. Zero-Knowledge-Beweise können dafür sorgen, dass die Kosten böswilligen Handelns steigen und somit ein höheres Maß an ehrlichem Verhalten der Trainingsteilnehmer garantieren.Daher wird in dieser Arbeit wird ein Blockchain-basiertes föderiertes Lernsystem mit Zero-Knowledge-Proof-Datenverifizierung vorgeschlagen. Die Leistung des Modells wird anhand eines nichtä-föderierten Ansatzes bewertet. Darüber hinaus werden die Zusatzkosten, die durch die Verwendung von Zero-Knowledge-Proof-Datenverifizierung verursacht werden, im Detail diskutiert.Dem vorgeschlagenen System gelingt es, das gewünschte Maß an Transparenz, Dezentralisierung, Privatsphäre und ehrlichem Trainingsverhalten bereitzustellen. Die Vorhersagequalität des föderierten Lernmodells wird durch den Zusatzaufwand der Datenüberprüfung nicht beeinträchtigt. Die Vorhersagequalität des Modells konvergiert erfolgreich zu jener seines nicht verteilten Äquivalents, was darauf hindeutet, dass die Verwendung des Blockchain-basierten föderierten Lernansatzes nicht mit einem Leistungsabfall verbunden ist. Mit der Verwendung der Zero-Knowledge-Proof-Datenüberprüfung ist allerdings ein beträchtlicher Zusatzaufwand verbunden. Während die Verwendbarkeit stark von der Rechenleistung und den Speicherressourcen der Geräte der Trainingsteilnehmer abhängt, kann die Gültigkeit des Trainingsfortschrittes öffentlich, auf der Blockchain und ohne jegliche Interaktion mit dem Trainingsteilnehmer garantiert und validiert werden.

Keywords:

Blockchain; Federated Learning; Zero-Knowledge Proof; zkSNARK; ZoKrates; Internet of Things

"Official" electronic version of the publication (accessed through its Digital Object Identifier - DOI)

http://dx.doi.org/10.34726/hss.2022.90711

Created from the Publication Database of the Vienna University of Technology.