[Back]


Diploma and Master Theses (authored and supervised):

A. Mager:
"Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente";
Supervisor: R. Pichler, R. Baumgartner; Institut für Informationssysteme, Arbeitsbereich Datenbanken & Artificial Intelligence, 2008; final examination: 2008-10-08.



German abstract:
Betrachtet man die Repräsentation des Wissens, spiegelt das World Wide Web, so wie es heute existiert, sehr deutlich gesellschaftliche Eigenschaften der Personen wieder, die es erschaffen haben und es warten. Es ist nicht möglich eine bestimmte Frage an "die Menschheit" zu steilen. Genausowenig ist es möglich eine bestimmte Frage an "das Internet" zu stellen. Es ist notwendig zu wissen, welche Menschen oder welche Gruppe von Menschen beziehungsweise welche Gruppe von Webseiten man fragen muss, um eine gewünschte Antwort zu erhalten. Dazu kommen noch die Sprache und die Form, in der die Fragen gestellt werden müssen, um vom Gegenüber verstanden zu werden. Auch unterscheiden sich die Antworten der Befragten in diesen Aspekten.
Suchmaschinen, wie zum Beispiel Yahoo! Search oder Google, indizieren das über Links erreichbare Web und ermöglichen damit eine Suche nach bestimmten Worten. Aktuelle Such- maschinen sind jedoch nicht in der Lage, die Bedeutung von Webseiten zu verstehen. Weiters bleiben ihnen Inhalte verborgen, welche nur über die gezielte Eingabe in Abfrageformularen erreichbar sind.
Ein semantisches Web[BLHLOII, das heißt ein Web, in dem alle Informationen strukturiert und annotiert verfügbar sind, wäre in der Lage, Fragen, wie sie im ersten Absatz besprochen wurden zu beantworten. Dieses Ziel liegt jedoch noch in weiter Ferne. Die ersten Schritte in diese Richtung sind das automatische Verstehen und Verwenden von Abfragemöglichkeiten des unstrukturierten Webs, um die daraus zugänglich gewordenen Daten in eine strukturierte Form zu bringen. Man konzentriert sich dabei anfangs auf einige wenige Domänen.
In dieser Arbeit werden die automatische Erkennung und das Verständnis von solchen domänen- spezifischen Abfrageformularen behandelt. Die dabei verwendete Methode der Klassifikation wurde, wie in den folgenden Absätzen erklärt wird, durch ihre erfolgreiche Verwendung in der Spam-Bekämpfung inspiriert.
Die aktuelle Spam-Problematik hat erstaunlich effiziente Erkennungsmethoden hervorgebracht. Vor allem das Bayes-Modul des Spamassassin-Systems fällt durch seine sehr hohe Treffsicherheit auf. Es ist ohne weiteres möglich, ein stark frequentiertes E-Mail-Konto derart zu filtern, dass pro Jahr nur wenige unerwünschte Nachrichten den Empfänger erreichen und gleichzeitig False Positives nahezu ausgeschlossen sind.
Die Idee HTML-Seiten mittels eines Bayes`schen Klassifikators zu klassifizieren entstand während der ersten Besprechung mit Dr. rer. nat. Robert Baumgartner über den Inhalt der Arbeit.
Aus Gründen der besseren Lesbarkeit wird in der vorliegenden Arbeit an den meisten Stellen darauf verzichtet, jeweils die männliche und weibliche Form zu verwenden. Selbstverständlich werden, wenn nicht explizit anders angeführt, alle Menschen gleichermaßen angesprochen.

Created from the Publication Database of the Vienna University of Technology.