[Back]


Diploma and Master Theses (authored and supervised):

D. Karall:
"SmartMatching in der Praxis";
Supervisor: G. Kappel; Business Informatics Group, 2009; final examination: 08-25-2009.



English abstract:
In software projects most of the data is saved in a structured way to simplify the usage of it. These data structures are persisted in relational or XML (Extensible Markup Language) databases. In case of new software releases these data structures have to be modified to save new data or adapted data. The usage of a new technology often implies changes in the data structures as well. If changes are made on the data structure, in most of the cases the old data must be migrated to the new data structure to avoid data loss. This process, called information integration, is a time intensive job, and must be done by experts, who create the mapping rules manually and have to take care of the data structure limitations. With schema matching this process can be solved more efficient by schema matching tools build automatically the mapping rules which can be used to transform the data into a new data structure.

SmartMatcher is a schema matching tool prototype, which has been developed at the Vienna University of Technology. This prototype generates mappings out of a source and target schema with their corresponding training instances. The latest release of the SmartMatcher contains a new internal data structure, which should allow more complex mapping operations in future. The effect of this new data structure regard-ing the quality of mappings has been evaluated in this work. Furthermore, a new feature has been integrated which allows to import existing mappings. With this fea-ture the SmartMatcher will be able to use results from other matching tools to im-prove them. In the past the SmartMatcher was limited to one training instance per schema. Thus, a further feature was implemented, called Multiple Samples. This allows more training instances to be used by the SmartMatcher, and improves the user experience by providing a better clarity of the training instances.

German abstract:
In Softwareprojekten werden Daten strukturiert, um diese einfacher abzufragen und zu verarbeiten. Diese Datenstrukturen werden in relationale oder XML (Extensible Markup Language) Datenbanken mit deren zugehörigen Daten persistiert. Bei neuen Software Releases unterliegen diese Strukturen stetigen Änderungen, da teilweise neue Strukturen hinzugefügt oder bestehende verändert werden. Oftmals wird mit einer Technologieumstellung auch eine Veränderung der Datenstrukturen notwendig. Bei der Änderung der Strukturen muss in vielen Fällen auf die vorhandenen Daten Rücksicht genommen werden, da diese nicht verloren gehen dürfen und in die neue Struktur zu migrieren sind. Diese Informationsmigration ist eine zeitintensive Auf-gabe, da Experten die Transformationsregeln für die Migration manuell erstellen sowie etwaige Einschränkungen auf Strukturebene berücksichtigen müssen. Um die-se Aufgabe effizienter zu lösen, gibt es den Ansatz des Schema Matchings. Bei die-sem Verfahren werden automatisch die Transformationsregeln, in Form von soge-nannten Mappings, erstellt, welche danach auf die Daten angewendet werden, um diese zu migrieren.

Der Forschungsprototyp SmartMatcher, der in dieser Arbeit behandelt wird, ist ein Schema Matching Werkzeug, das auf der Technischen Universität Wien entwickelt wurde. Dieser Prototyp erlaubt es auf Basis eines Quell- und Ziel-Schemas mit einer Trainingsinstanz Mappings zu generieren. Vor der vorliegenden Arbeit wurde der SmartMatcher mit einer neuen internen Datenstruktur ausgestattet, welche es in Zu-kunft ermöglicht, komplexere Migrationsregeln abzuleiten. Die Auswirkung der Da-tenstruktur bezüglich der Qualität der generierten Mappings wurde in dieser Arbeit evaluiert. Des Weiteren wurde ein neues Feature integriert, welches es erlaubt, vor-handene Mappings zu importieren. Damit erlangt der SmartMatcher die Fähigkeit, auch Ergebnisse anderer Matching Werkzeuge zu verarbeiten und zu verbessern. Der SmartMatcher hatte bislang keine Möglichkeit für ein Schema mehrere Trainingsin-stanzen zu verarbeiten. Deshalb wurde ein weiteres Feature, genannt Multiple Sam-ples Feature, implementiert, um die Übersichtlichkeit von Trainingsinstanzen zu wahren.


Electronic version of the publication:
http://publik.tuwien.ac.at/files/PubDat_184543.pdf