[Back]


Publications in Scientific Journals:

A. Steininger, P Tummeltshammer:
"Replicated processors on a single die - How independently do they fail?";
Journal e&i: Elektrotechnik und Informationstechnik, 128 (2011), 245 - 250.



English abstract:
A very popular and efficient method for achieving fault tolerance is replication of components paired with a comparison of their outputs.
Systems-on-chip architectures enable a cost-efficient implementation of this scheme on a single die. The resulting close physical
proximity of the replica, however, implies an increased coupling, and therefore single-die solutions are more susceptible to
common-cause faults (CCFs) than equivalent multi-chip approaches. Unfortunately, no answer could be given so far, to which degree
the coupling decreases the dependability gain accomplished by the replication even in a single-die solution. In this paper we analyze
potential coupling mechanisms and study under which circumstances they lead to identical outputs in all replica, since exactly in this case
the “replication and comparison” scheme will fail. We perform both, simulation studies as well as comprehensive experimental
investigations to derive a quantitative answer to this question. Our particular focus is on thermal effects and on the effects of
disturbances in a shared power supply in a duplicated processor architecture. Beyond observing the relative probability of occurrence of
CCFs, we also study the effectiveness of several countermeasures against them. We elaborate a model to decompose the genesis of
CCFs into several steps, and show that very tight local and temporal coincidence of the fault effect in both replica is crucial for a CCF,
which is unlikely, e.g. in the case for thermal effects. As a general result it turns out that even small asymmetries between the cores yield
a drastic reduction in the CCF probability.

German abstract:
Eine bekannte und effiziente Fehlertoleranzmethode ist die Verwendung mehrerer Komponenten in Kombination mit einem Ausgangsvergleicher. System-on-chip-Architekturen ermöglichen eine kosteneffiziente Implementierung dieser Methode auf einem Chip. Die resultierende Nähe der einzelnen Komponenten impliziert allerdings ein erhöhtes Risiko zur Fehlerkopplung, weshalb Einzelchip-Lösungen anfälliger für Common Cause-Fehler (CCFs) sind als Lösungen mit mehreren Chips. Bis dato ist jedoch unklar, in welchem Ausmaß diese Kopplung den durch die Replikation erzielten Gewinn an Systemzuverlässigkeit wieder egalisiert. In dieser Arbeit analysieren die Autoren potentielle Kopplungsmechanismen und erörtern, unter welchen Umständen sie zu einem identischen Ausgabewert aller Komponenten führen, da genau in diesem Fall das Prinzip der Replikation versagt. Es werden sowohl Simulation als auch experimentelle Untersuchungen verwendet, um eine quantitative Lösung zu dieser Frage abzuleiten. Speziell liegt der Fokus auf thermischen Effekten und Störungen in der gemeinsam genutzten Spannungsversorgung. Neben der Analyse der relativen Wahrscheinlichkeit von CCFs analysieren die Autoren auch die Effektivität von Gegenmaßnahmen. Sie erarbeiten ein Modell, um den Ursprung dieser CCFs in verschiedene Schritte zu zerlegen, und zeigen, dass CCFs eine enge lokale und zeitliche Übereinstimmung erfordern, was sehr unwahrscheinlich für z. B. thermische Effekte ist. Eine allgemeine Erkenntnis ist, dass selbst geringe Asymmetrien zwischen den Komponenten bereits zu einer drastischen Reduktion der CCFs führen.

Keywords:
dual core architecture; common-cause fault; fault injection; asymmetry


"Official" electronic version of the publication (accessed through its Digital Object Identifier - DOI)
http://dx.doi.org/10.1007/s00502-011-0005-9



Related Projects:
Project Head Andreas Steininger:
Bosch


Created from the Publication Database of the Vienna University of Technology.