VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Yu, Shi; Tang, Chaoyue; Xu, Bokai; Cui, Junbo; Ran, Junhao; Yan, Yukun; Liu, Zhenghao; Wang, Shuo; Han, Xu; Liu, Zhiyuan; Sun, Maosong

Computer Science > Information Retrieval

arXiv:2410.10594 (cs)

[Submitted on 14 Oct 2024 (v1), last revised 2 Mar 2025 (this version, v2)]

Title:VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Authors:Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun

View PDF HTML (experimental)

Abstract:Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 20--40% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is efficient in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at this https URL.

Subjects:	Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2410.10594 [cs.IR]
	(or arXiv:2410.10594v2 [cs.IR] for this version)
	https://doi.org/10.48550/arXiv.2410.10594

Submission history

From: Shi Yu [view email]
[v1] Mon, 14 Oct 2024 15:04:18 UTC (25,369 KB)
[v2] Sun, 2 Mar 2025 01:19:51 UTC (25,883 KB)

Computer Science > Information Retrieval

Title:VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Information Retrieval

Title:VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators