Indoor scene recognition from images under visual corruptions

Costa, Willams de Lima; Ismayilov, Raul; Strisciuglio, Nicola; Martinez, Estefania Talavera

Computer Science > Computer Vision and Pattern Recognition

arXiv:2408.13029 (cs)

[Submitted on 23 Aug 2024]

Title:Indoor scene recognition from images under visual corruptions

Authors:Willams de Lima Costa, Raul Ismayilov, Nicola Strisciuglio, Estefania Talavera Martinez

View PDF HTML (experimental)

Abstract:The classification of indoor scenes is a critical component in various applications, such as intelligent robotics for assistive living. While deep learning has significantly advanced this field, models often suffer from reduced performance due to image corruption. This paper presents an innovative approach to indoor scene recognition that leverages multimodal data fusion, integrating caption-based semantic features with visual data to enhance both accuracy and robustness against corruption. We examine two multimodal networks that synergize visual features from CNN models with semantic captions via a Graph Convolutional Network (GCN). Our study shows that this fusion markedly improves model performance, with notable gains in Top-1 accuracy when evaluated against a corrupted subset of the Places365 dataset. Moreover, while standalone visual models displayed high accuracy on uncorrupted images, their performance deteriorated significantly with increased corruption severity. Conversely, the multimodal models demonstrated improved accuracy in clean conditions and substantial robustness to a range of image corruptions. These results highlight the efficacy of incorporating high-level contextual information through captions, suggesting a promising direction for enhancing the resilience of classification systems.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2408.13029 [cs.CV]
	(or arXiv:2408.13029v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2408.13029

Submission history

From: Willams De Lima Costa [view email]
[v1] Fri, 23 Aug 2024 12:35:45 UTC (5,972 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Indoor scene recognition from images under visual corruptions

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Indoor scene recognition from images under visual corruptions

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators