[Back]


Doctor's Theses (authored and supervised):

T. Panhofer:
"Self-Healing Asynchronous Circuits for High-Reliability Applications";
Supervisor, Reviewer: A. Steininger, H. Vierhaus; Institut für Technische Informatik, 2012.



English abstract:
New generations of integrated programmable logic devices offer more and more resources,
which makes them very attractive for implementing even complete systems on chip. Advancing
miniaturization, higher integration, continuously decreasing supply voltage and other changing
parameters lead to a situation where fault effects that previously were an issue only in extremely
harsh environments, e.g. space missions, are now impacting the circuits also in "normal" environments.
At the same time the probability for multiple faults occurring during operation is
increasing. This diverging evolution - increasing complexity vs. decreasing (system) reliability
- is getting a serious problem for high reliability applications.
While a lot of methods exist to handle transient faults, there are no consolidated concepts
available for permanent faults. Traditional fault tolerance concepts, e.g. TMR, are usually costly
in terms of hardware resources, mass and power consumption. Furthermore, for highly complex
systems it is difficult to predict the failure modes. In particular for those high-reliability applications,
where a repair is very expensive or even impossible, the trend goes towards adaptive
systems, that can autonomously cope with failure situations as they arise.
In this thesis a self-healing concept for integrated digital logic is presented. The approach
is based on asynchronous circuits and uses uses a redundant pipeline as basic circuit structure.
Combinational logic is replaced by reconfigurable Self-Healing Cells (SHC). The inherent properties
of the asynchronous design style FSL simplifies the design of a fault tolerant system, as
it features e.g. fail-stop behavior without additional effort. A watchdog circuit monitors the
circuitīs activity and triggers the reconfiguration controller to start the circuit reconfiguration in
case of a deadlock. As soon as a valid data and acknowledge path is established, the pipeline
autonomously starts working again. In general, this procedure works without loss or corruption
of data. However, the pipeline structure and the applied reconfiguration algorithm influence the
sensitivity to timing effects and the probability for a successful repair.
To verify the function of the concept, a VHDL model of the self-healing pipeline as well
as of several different reconfiguration controllers was designed. In addition an abstract Matlab
model was established and used for exhaustive fault injection simulations. Finally, the circuits
were implemented in a Xilinx Virtex-4 FPGA and hardware fault injection experiments were
performed. All models used the same stimulus interface, so that identical situations could be
investigated and compared on different abstraction levels.
The results justify the suitability of the approach for increasing the fault tolerance of integrated
circuits: All single faults, more than 80% of the double faults and nearly 60% of triple
faults can be tolerated by the developed concept, while introducing a hardware overhead comparable
to a TMR system.

German abstract:
Neue Generationen von integrierten, programmierbaren Bauelementen stellen ausreichend Ressourcen
zur Verfügung, um komplette "Systems-on-Chip" (SoC) zu realisieren. Fortschreitende
Miniaturisierung, höhere Integrationsdichten, sinkende Versorgungsspannungen und einige andere
Parameterveränderungen führen dazu, daß Fehlereffekte, die bisher nur in extremen Umgebungsbedingungen
wie z.B. im Weltraum von Relevanz waren, nun auch Schaltungen in normaler
Umgebung stören können. Gleichzeitig steigt auch die Wahrscheinlichkeit für Mehrfachfehler
während des Betriebs. Diese divergierende Entwicklung - steigende Komplexität und sinkende
(System-) Zuverlässigkeit - wird zunehmend zu einem signifikanten Problem für hochzuverlässige
Anwendungen.
Während für die Mitigation von transienten Fehlern zahlreiche etablierte Methoden existieren,
ist die Behandlung von permanenten Fehlern weitgehend unerforscht. Traditionelle Massnahmen,
wie z.B. TMR, sind oft aufgrund ihres Ressourcenverbrauchs, zusätzlicher Masse und
erhöhter Leistungsaufnahme unattraktiv. Weiters sind die Fehlerauswirkungen in komplexen
Systemen schwer vorherzusagen. Insbesondere für Anwendungen, in denen eine Reparatur sehr
teuer oder sogar unmöglich ist, wird nun versucht, eine gewisse Autonomie in der Fehlerbehandlung
zu erzielen.
Diese Dissertation beschreibt ein selbstheilendes System für integrierte digitale Logik. Das
Konzept verwendet eine redundante asynchrone Pipeline als Ausgangsstruktur. Kombinatorische
Logik wird durch sogenannte selbstheilende Zellen (SHC) ersetzt. Insbesondere die asynchrone
Design-Methodik FSL bietet einige inhärente Eigenschaften, die für ein fehlertolerantes System
von Vorteil sind (z.B. "fail-stop" Verhalten). Ein Watchdog überwacht die Schaltungsaktivität
und startet im Fehlerfall eine Rekonfiguration. Sobald gültige Signal-Pfade vorhanden sind, setzt
die Pipeline ihre Arbeit fort. Grundsätzlich werden die Daten dabei nicht gestört. Die enstehende
Struktur der Pipeline beeinflusst jedoch das zeitliche Verhalten und kann zu Problemen führen.
Für die Verifikation des Konzepts wurde ein VHDL Modell sowohl der Pipeline als auch
unterschiedlicher Algorithmen entwickelt, sowie auch ein abstraktes Modell in Matlab. Schließlich
wurde die Schaltung in einem Xilinx Virtex-4 FPGA implementiert und umfangreichen
Experimenten unterzogen. Alle Modelle verwenden den gleichen Kontollmechanismus, sodass
idente Situationen in allen Modellen auf unterschiedlichen Abstraktionsebenen untersucht werden
konnten.
Die Ergebnisse beweisen die Eignung des Konzepts für die Erhöhung der Fehlertoleranz
in integrierten Schaltungen: alle Einzelfehler, mehr als 80% der Doppelfehler und fast 60%
der Dreifachfehler konnten behoben werden, während der zusätzliche Ressourcenaufwand vergleichbar
mit TMR Systemen ist.