[Back]


Contributions to Proceedings:

T. Eiter, J. Oetsch, N. N. Higuera Ruiz, M. Pritz:
"A Confidence-Based Interface for Neuro-Symbolic Visual Question Answering";
in: "CLeaR Workshop AAAI 2022", AAAI Press, 2022.



English abstract:
We present a neuro-symbolic visual question answering (VQA) approach for the CLEVR dataset that is based on the combination of deep neural networks and answer-set programming (ASP), a logic-based paradigm for declarative problem solving.
We provide a translation mechanism for the questions included in CLEVR to ASP programs.
By exploiting choice rules,
we consider deterministic and non-deterministic scene encodings. In addition,
we introduce a confidence-based interface between the ASP module and the neural network which allows us to restrict the non-determinism to objects classified by the network with high confidence.
Our experiments show that the
non-deterministic scene encoding achieves good results even if the neural networks are trained rather poorly in comparison with the deterministic approach.
This is important for building robust VQA systems if network predictions are less-than perfect.

German abstract:
Wir präsentieren einen neurosymbolischen visuellen Fragebeantwortungsansatz (VQA) für den CLEVR-Datensatz, der auf der Kombination von tiefen neuronalen Netzen und Antwortsatzprogrammierung (ASP) basiert, einem logikbasierten Paradigma zur deklarativen Problemlösung.
Wir bieten einen Übersetzungsmechanismus für die in CLEVR-zu-ASP-Programmen enthaltenen Fragen.
Durch die Ausnutzung von Wahlregeln
Wir betrachten deterministische und nicht-deterministische Szenencodierungen. In Ergänzung,
Wir führen eine konfidenzbasierte Schnittstelle zwischen dem ASP-Modul und dem neuronalen Netzwerk ein, die es uns ermöglicht, den Nichtdeterminismus auf Objekte zu beschränken, die vom Netzwerk mit hoher Konfidenz klassifiziert werden.
Unsere Experimente zeigen, dass die
Die nicht-deterministische Szenencodierung erzielt gute Ergebnisse, auch wenn die neuronalen Netze im Vergleich zum deterministischen Ansatz eher schlecht trainiert sind.
Dies ist wichtig für den Aufbau robuster VQA-Systeme, wenn die Netzwerkvorhersagen nicht perfekt sind.

Keywords:
Visual Question Answering, Answer Set Programming, Neural Networks

Created from the Publication Database of the Vienna University of Technology.