Variational Visual Question Answering

Wieczorek, Tobias Jan; Daun, Nathalie; Khan, Mohammad Emtiyaz; Rohrbach, Marcus

Computer Science > Computer Vision and Pattern Recognition

arXiv:2505.09591 (cs)

[Submitted on 14 May 2025]

Title:Variational Visual Question Answering

Authors:Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach

View PDF HTML (experimental)

Abstract:Despite remarkable progress in multimodal models for Visual Question Answering (VQA), there remain major reliability concerns because the models can often be overconfident and miscalibrated, especially in out-of-distribution (OOD) settings. Plenty has been done to address such issues for unimodal models, but little work exists for multimodal cases. Here, we address unreliability in multimodal models by proposing a Variational VQA approach. Specifically, instead of fine-tuning vision-language models by using AdamW, we employ a recently proposed variational algorithm called IVON, which yields a posterior distribution over model parameters. Through extensive experiments, we show that our approach improves calibration and abstentions without sacrificing the accuracy of AdamW. For instance, compared to AdamW fine-tuning, we reduce Expected Calibration Error by more than 50% compared to the AdamW baseline and raise Coverage by 4% vs. SOTA (for a fixed risk of 1%). In the presence of distribution shifts, the performance gain is even higher, achieving 8% Coverage (@ 1% risk) improvement vs. SOTA when 50% of test cases are OOD. Overall, we present variational learning as a viable option to enhance the reliability of multimodal models.

Comments:	19 pages, 16 figures, under review at ICCV 2025
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2505.09591 [cs.CV]
	(or arXiv:2505.09591v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2505.09591

Submission history

From: Tobias Wieczorek [view email]
[v1] Wed, 14 May 2025 17:40:22 UTC (10,209 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Variational Visual Question Answering

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Variational Visual Question Answering

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators