Publication Entry

[Back]

Talks and Poster Presentations (with Proceedings-Entry):

B. Yildiz, K. Kaiser, S. Miksch:
"pdf2table: A Method to Extract Table Information from PDF Files";
Talk: Indian International Conference on Artificial Intelligence (IICAI), India; 2005-12-20 - 2005-12-22; in: "Proceedings of the 2nd Indian International Conference on Artificial Intelligence", (2005), ISBN: 0-9727412-1-6; Paper ID 441.

English abstract:

Tables are a common structuring element in many documents, such as PDF files. To reuse such tables, appropriate methods need to be develop, which capture the structure and the content information. We have developed several heuristics which together recognize and decompose tables in PDF files and store the extracted data in a structured data format (XML) for easier reuse. Additionally, we implemented a prototype, which gives the user the ability of making adjustments on the extracted data. Our work shows that purely heuristic-based approaches can achieve good results, especially for lucid tables.

German abstract:

Tabellen sind oft verwendete Strukturierungselemente die in verschiedenen Dokumenten vorkommen, wie zum Beispiel in PDF Dateien. Um diese Tabellen wieder verwenden zu können, müssen geeignete Methoden entwickelt werden, die die Struktur und den Inhalt dieser festhalten können. Wir haben verschiedene Heuristiken entwickelt, die zusammen Tabellen in PDF Dateien indentifizieren und wiederherstellen und die extrahierten Daten in einem strukturierten Datenformat (XML), für bessere Wiederverwendung, abspeichern. Weiteres haben wir einen Prototypen implementiert, welches dem Benutzer ermöglicht Verbesserungen auf den extrahierten Daten durchzuführen. Unsere Arbeit zeigt, dass heuristik-basierte Ansätze, besonders für übersichtliche Tabellen, gute Ergebnisse erzielen können.

Online library catalogue of the TU Vienna:

http://aleph.ub.tuwien.ac.at/F?base=tuw01&func=find-c&ccl_term=AC05936433

Created from the Publication Database of the Vienna University of Technology.