[Back]


Scientific Reports:

K. Kaiser, S. Miksch:
"Information Extraction. A Survey.";
Report for Asgaard-TR-2005-6; 2005; 32 pages.



English abstract:
Information Extraction is a technique used to detect relevant information in larger documents and present it in a structured format. Information Extraction is not Text Understanding. It is used to analyze the text and locate specific pieces of information in the text.
Information Extraction techniques can be applied to structured, semi-structured, and
unstructured texts. For the latter one, Natural Language Processing is necessary which
is implemented in traditional Information Extraction systems. To process structured and
semi-structured texts often no NLP techniques are necessary as they do not offer such a rich grammatical structure. For this reason, so called wrappers are developed that incorporate the different structures of documents.
In this paper we will describe the requirements and components of Information Extraction systems as well as present various approaches for building such systems. We then will
represent important methodologies and systems for both traditional Information Extraction systems and wrapper generation systems.

German abstract:
Informationsextraktion ist eine Technik, um relevante Information in größeren Dokumenten zu erkennen und diese in einem strukturierten Format darzustellen. Bei der Informationsextraktion geht es nicht um das Verstehen des Textes, sondern darum, den Text zu analysieren und spezielle Teile der Information im Text zu lokalisieren.
Informationsextraktionstechniken können sowohl bei strukturierten, semi-strukturierten und unstrukturierten Texten angewandt werden. Für letztere ist es nötig 'Natural Language Processing' Techniken anzuwenden, wie sie in den traditionellen Informationsextraktionssystemen implementiert sind. Um strukturierte und semi-strukturierte Texte verarbeiten zu können, sind oftmals keine NLP-Techniken notwendig, da diese Texte eine weniger grammatikalische Struktur aufweisen. Aus diesem Grund wurden s.g. Wrapper entwickelt, die die unterschiedlichen Strukturen der Dokumente für die Informationsextraktion berücksichtigen.
In dieser Arbeit beschreiben wir sowohl die Anforderungen als auch die Komponenten von Informationsextraktionssystemen. Zusätzlich stellen wir verschiedene Ansätze vor, um solche Systeme zu entwickeln, um danach wichtige Methoden und Systeme für traditionelle Informationsextraktionssysteme als auch Wrapper-Systeme vorzustellen.


Electronic version of the publication:
http://publik.tuwien.ac.at/files/pub-inf_2999.pdf


Created from the Publication Database of the Vienna University of Technology.