[Back]


Doctor's Theses (authored and supervised):

H. Kargl:
"Smart Matching - An Approach for the Automatic Generation of Executable Schema Mappings";
Supervisor, Reviewer: G. Kappel, C. Huemer; Institut für Softwaretechnik und Interaktive Systeme, 2008.



English abstract:
Information integration has a long history in computer science1. It has started with the integration of database schemas in the early eighties. With the rise of the SemanticWeb and the emerging abundance of ontologies, the need for an automatic information integration increased further.

Information integration in general and automatic information integration in particular is a huge and challenging research area. One of the main problems is handling semantic heterogeneity and schema heterogeneity. Manually finding the semantically overlapping parts of schemas is a tedious problem. Furthermore, writing integration code is a labor intensive, error-prone, and cumbersome task. A lot of approaches have already been developed to automate this work. Nevertheless, not all integration problems have been solved so far.
Matching tools are used to automatically find similarities between schemas. The results of these tools are simple correspondences. Based on these correspondences, one is able to write integration code. However, the simple correspondences are just suggestions and must be verified manually. Hence, the completeness and correctness of the resulting correspondences may not be assured. Furthermore, it is not possible to automatically derive transformation code for all found simple correspondences.

In order to write transformation code, different kinds of transformation languages have been developed. The produced code is too customized for a specific type of schema to be easily reused for other integration problems. Hence, to the best of our knowledge, there exists no transformation language to develop reusable transformation patterns for different kinds of heterogeneity problems.

This thesis addresses the heterogeneity problems, as well as the lack of reusable transformation code, and the need for establishing correct and complete correspondences between schemas. The first two problems are tackled by developing an executable declarative mapping language, which is able to cope with the core of schema heterogeneity problems. In contrast to simple correspondences, this mapping language is able to express more constraints. Based on these more expressive mappings, the execution code is automatically derived. The third problem is tackled by a self-tuning, iterative matching approach. This approach is based on the developed mapping language. Mapping strategies are responsible for the application of mapping operators. Based on the executable mapping suggestion, completeness and correctness are achieved for a provided set of instance models by a testdriven
approach. These instance models are used to evaluate the produced mapping model.
The prototype of this self-tuning approach is called SmartMatcher.

1Laura Haas. Beauty and the Beast: The Theory and Practice of Information Integration. In 11th International
Conference on Database Theory, Springer LNCS 4353, 2007, pp. 28-43.

German abstract:
Schon seit vielen Jahren beschäftigt sich die Computerwissenschaft mit Informationsintegration. Die Ursprünge liegen in der Integration von Datenbanksystemen in den frühen achtziger Jahren des zwanzigsten Jahrhunderts. Mit dem Aufkommen des Semantic-Web und den damit verbundenen Ontologien stieg die Nachfrage nach Automatisierung beim Integrieren von Informationen.

Informationsintegration im Allgemeinen, und das automatische Integrieren von Informationen im Speziellen, ist eine herausfordernde Disziplin. Eine der größten Schwierigkeiten beim Finden von Korrespondenzen zwischen Schemaelementen liegt in der Bewältigung von semantischer und schematischer Heterogenität. Das manuelle Finden von sich semantisch überlappenden Teilen eines Schemas ist eine zeitaufwändige und fehleranfällige Arbeit. Um sie zu vereinfachen, wurde bereits eine Vielzahl von Ansätzen zur Automatisierung entwickelt. Dennoch konnten noch nicht alle damit verbundenen Probleme gelöst werden. Einer dieser Ansätze ist das automatische Matchen mittels Matching-Tools, der das Finden von Korrespondenzen automatisiert. Ergebnis dieser Tools sind einfache Korrespondenzen
zwischen Schemaelementen, auch "Alignments" genannt, die genutzt werden können, um Teile eines Transformationscodes zu erstellen. Allerdings sind Alignments lediglich Vorschläge und müssen manuell überprüft werden. Daher kann die Vollständigkeit und Korrektheit eines anhand von Alignments automatisch erstellten Transformationscodes nicht gewährleistet werden.

Im Laufe der Zeit wurden verschiedene Transformationssprachen entwickelt, um Schemainstanzen zu transformieren. Um vorhandene Transformationsprogramme wiederverwenden zu können, müssen diese Programme allerdings immer wieder angepasst werden. Nach bestem Wissen und Gewissen ist dem Autor keine Transformationssprache bekannt, die wiederverwendbare Transformationscodefragmente zur Verfügung stellt, um sie auf ähnliche Schemaheterogenitätsprobleme anzuwenden.

Diese Arbeit beschäftigt sich mit Schemaheterogenitätsproblemen, sowie dem Fehlen von wiederverwendbaren Transformationsprogrammen und der Anforderung, vollständige und korrekte Transformationsprogramme automatisch zu erstellen. Die ersten beiden Probleme werden durch eine deklarative und ausführbare Mapping-Sprache gelöst, die den Kern von
Schemaheterogenitäten überbrücken kann. Im Gegensatz zu einfachen Korrespondenzen (Alignments) eignet sich diese Mapping-Sprache besser zum Definieren einschränkender Bedingungen. Basierend auf diesen ausdrucksstärkeren Korrespondenzen kann nun automatisch Transformationscode abgeleitet werden. Das dritte Problem wird durch die Erstellung eines sich selbstregulierenden, iterativen Matching-Ansatzes gelöst. Dieser Ansatz basiert auf der entwickelten Mapping-Sprache und Mapping-Strategien zur Anpassung der Korrespondenzen. Die Vollständigkeit und Korrektheit dieser Mapping-Vorschläge werden durch zuvor definierte, semantisch äquivalente Schemainstanzen sichergestellt, die zur Evaluierung der Korrespondenzen herangezogen werden. Der im Rahmen dieser Dissertation
entwickelte Prototyp dieses selbstregulierenden Ansatzes wird SmartMatcher genannt.


Electronic version of the publication:
http://publik.tuwien.ac.at/files/PubDat_168069.pdf


Created from the Publication Database of the Vienna University of Technology.