[Back]


Doctor's Theses (authored and supervised):

C. Becker:
"Trustworthy Preservation Planning.";
Supervisor, Reviewer: A. Rauber, J. Borbinha; E188, 2010; oral examination: 2010-06-10.



English abstract:
The mission of digital preservation is to overcome the obsolescence threats that digital material is facing on the bitstream, the logical, and the semantic level, and to provide continued, authentic long-term storage and access to digital objects in a usable form for a specific user community. This requires preservation actions to be carried out when the original environment of digital objects is unavailable, to either recreate it (emulation) or transform the objects´ representation into a form usable in a new enviroment (migration). A variety of preservation actions exist. Quality varies across tools; properties vary across content; usage and requirements vary across users and scenarios; risk tolerances, preferences, costs, and constraints vary across collections, organisations, and environments. Finally, all of these factors are subject to constant shifts that have to be detected and handled.

The mission of preservation planning is to ensure authentic future access for a specific set of objects by defining the actions needed to preserve it. The core problem of preservation planning is a domain-specific instance of component selection and can be correspondingly reformulated and modelled. The arising research questions are threefold: (1) How can we select the optimal preservation action for a given setting? (2) How can we ensure trustworthy preservation planning? (3) How can we ensure that decision processes scale up?

This thesis describes a systematic framework for preservation planning, comprising a multi-objective decision making method, workflow and tool for creating preservation plans for sets of digital objects. Policies as high-level influence factors model environmental constraints and specify organisational preferences. Preservation planners empirically evaluate potential action components by applying automated measurements in a controlled environment and select the component that is optimal with respect to the particular requirements of a given setting. We present a distributed architecture for preservation planning which integrates planning, actions, and characterisation, with the planning tool Plato at its core. The tool implements the planning method and creates solid, well-documented preservation plans. It has experienced significant uptake in the digital preservation community.

We describe examples applying the approach to a number of real-world business decisions, discuss limitations of the approach, and identify a key challenge of evaluation. We further analyse the influence factors to be captured and evaluated and categorise them in a taxonomy. We show that a majority of the criteria can be evaluated by applying automated measurements under realistic conditions, and demonstrate that controlled experimentation and automated measurements can be used to substantially improve repeatability of decisions. This reduces the effort needed to evaluate components, enables scalability, and supports trust in the decisions because extensive evidence is produced in a repeatable and reproducible way and documented along with the decision in a standardised and comparable form.

German abstract:
Die Aufgabe der digitalen Langzeitarchivierung ist es, die Risiken abzuwehren, die die Vielzahl existierender digitaler Materalien auf den Ebenen der Datenströme, der Logik und der Semantik bedrohen und die langfristige Verfügbarkeit und Verständlichkeit dieser Materialien in Frage stellen. Das erklärte Ziel besteht darin, langfristige, sichere und authentische Speicherung sowie den vertrauenswürdigen Zugriff auf digitale Inhalte in einer verwendbaren Form für eine definierte Benutzergruppe sicherzustellen. Das erfordert auf Grund der konstanten Veränderungen der verwendeten Technologien kontinuierliche Aktionen zur Bewahrung der Objekte und zur Sicherstellung ihrer Lesbarkeit nach dem Ende der Verfügbarkeit der ursprünglichen technischen Umgebung, die zur Herstellung und Wiedergabe benutzt wurde. Solche Aktionen dienen daher entweder der Wiederherstellung einer äquivalenten Umgebung (Emulation) oder der (wiederholten) Konvertierung des Objektes in eine Repräsentationsform, die mit aktuellen Umgebungen kompatibel ist.
Grundsätzlich steht meist eine Vielzahl potentieller Aktionen zur Verfügung. Deren Qualität variiert jedoch je nach eingesetzter Software stark, die Eigenschaften digitaler Objekte unterscheiden sich je nach dem Typ der Inhalte, und die Arten der Verwendung und die entsprechenden Anforderungen variieren je nach Zielgruppe und Zugriffsszenarien. Risikotoleranz, Präferenzen, Kosten und Einschränkungen technischer und organisationsbedingter Art schwanken je nach der betrachteten Sammlung von Inhalten, der verantwortlichen Organisation und ihrer Umgebung. Weiters sind all diese Faktoren konstanten Verschiebungen ausgesetzt, die es zu erkennen und zu behandeln gilt.

Die Mission der Planung von vertrauenswürdiger Langzeitarchivierung besteht also darin, authentischen Zugriff für die Zukunft sicher zu stellen, indem
die richtigen Aktionen definiert werden, um bestimmte Inhalte zu bewahren. Das Kernproblem dieser Planung ist eine domänenspezifische Variante eines
bekannten Problemes der Softwareherstellung - der Selektion einer optimalen Komponente zur Erfüllung spezifischer Funktionen und ihre Integration in ein
Software-System. Folgende Forschungsfragen ergeben sich dabei: (1) Wie kann man die für eine bestimmte Situation optimale Aktion zur Langzeitarchivierung
auswählen? (2) Wie kann man dabei vertrauenswürdige Planung sicherstellen? (3) Wie kann man erreichen, dass die Entscheidungsprozesse heutigen und künftigen Anforderungen entsprechend skalieren?

Diese Dissertation beschreibt einen systematischen Ansatz zur Planung von Langzeitarchivierung. Dieser Ansatz besteht aus einer Entscheidungsmethode
für Situationen mit einer Vielzahl potentiell widersprüchlicher Kriterien. Diese Methode wird begleitet von einem konkreten Arbeitsprozess und einem Softwarewerkzeug, das die Erstellung von Archivierungsplänen für definierte Mengen von digitalen Objekten unterstützt. Richtlinien als abstrakte Einflussfaktoren modellieren dabei bekannte Einschränkungen und dokumentieren die Präferenzen der entscheidungstreffenden Organisation. Planungsverantwortliche Entscheidungsträger evaluieren auf dieser Basis potentielle Aktionen und Komponenten auf empirischeWeise, indem sie automatische Messungen in einer kontrollierten Umgebung durchführen und auf Grund der gesammelten Messdaten die Komponente auswählen, die die Anforderungen einer bestimmten Situation am Besten erfüllt.

Diese Arbeit stellt zu diesem Zweck eine verteilte Software-Architektur zur Planungsunterstützung für Langzeitarchivierung vor, in der Planung, Aktionen,
und Charakterisierung eng gekoppelt und integriert sind. Das Herzstück dieser Architektur bildet das Planungswerkzeug Plato (Planning Tool). Diese Software implementiert die Planungsmethode und erstellt solide, automatisch dokumentierte Archivierungspläne. Das Werkzeug hat in der weltweiten Gemeinschaft der Langzeitarchivierung signifikantes Interesse erfahren und wurde bereits zur produktiven Entscheidungsfindung in mehreren nationalen Institutionen eingesetzt.

Die Arbeit diskutiert Beispiele, in denen der Ansatz auf tatsächliche Probleme angewandt wurde, erforscht Einschränkungen und Kernprobleme des Ansatzes und identifiziert insbesondere die Schlüsselfrage der Evaluierung. Eine Analyse von Einflussfaktoren, die berücksichtigt und evaluiert werden müssen, führt zu einer Kategorisierung von Entscheidungskriterien in einer Taxonomie. Es wird gezeigt, dass ein Großteil der Kriterien durch automatische Messungen in einer kontrollierten Umgebung bei realistischen Bedingungen evaluiert werden kann. Es wird weiters demonstriert, dass kontrollierte Experimente und automatische Messungen die Wiederholbarkeit von Entscheidungen substantiell verbessern. Dadurch wird der Aufwand der Evaluierung von Komponenten reduziert und die Skalierbarkeit deutlich verbessert. Die automatische Messung unterstützt außerdem die Vertrauenswürdigkeit von Entscheidungen, da ausführliches Beweismaterial in einer wiederholbaren und nachvollziehbaren Weise produziert wird und dieses in standardisierter und vergleichbarer Form dokumentiert ist.

Keywords:
Digital Preservation, Preservation Planning, Decision Making, MCDM, Component selection

Created from the Publication Database of the Vienna University of Technology.