从零开始搭建多模态幻灯片视觉助手-CSDN博客

本文链接：https://blog.csdn.net/ppoojjj/article/details/148954697

在当今的数据驱动时代，能够快速从视觉信息中提取要点是非常有价值的。多模态大语言模型（LLM）能够分析图像并回答相关问题，为幻灯片演示提供了一种新的交互方式。本文将介绍如何使用rag-gemini-multi-modal模板来创建一个可以处理幻灯片的视觉助手。

技术背景介绍

视觉助手通过将幻灯片中的图形和图片嵌入到可搜索的索引中，能够根据用户的提问检索相关幻灯片，并生成答案。我们将使用OpenCLIP嵌入来处理幻灯片中的图像，并使用Google Gemini进行答案合成。

核心原理解析

OpenCLIP嵌入：我们使用OpenCLIP对幻灯片中的图像进行嵌入，通过嵌入生成的向量来表示图像的特征。
Chroma存储：这些嵌入的向量存储在Chroma中，这样我们可以高效地进行相似性搜索。
Google Gemini合成：对于检索到的相关幻灯片，我们使用Google Gemini生成详细答案。

代码实现演示

首先，创建索引以准备幻灯片：

poetry install
python ingest.py

在此过程中，我们将幻灯片中的所有图片嵌入并存储。

环境设置

确保设置GOOGLE_API_KEY以访问Google Gemini：

export GOOGLE_API_KEY=your-google-api-key

安装LangChain CLI工具：

pip install -U langchain-cli

创建一个新的LangChain项目，或将模板添加到现有项目中：

langchain app new my-app --package rag-gemini-multi-modal

或者：

langchain app add rag-gemini-multi-modal

在server.py文件中添加如下代码以启动服务：

from rag_gemini_multi_modal import chain as rag_gemini_multi_modal_chain

add_routes(app, rag_gemini_multi_modal_chain, path="/rag-gemini-multi-modal")

最后，启动本地服务器：

langchain serve

此命令将启动FastAPI应用，您可以在本地访问服务：http://localhost:8000

应用场景分析

这种技术主要适用于需要从大量幻灯片中快速提取信息的场景，如企业季度财务报告分析、学术会议演示文档分析等。

实践建议

选择合适的嵌入模型：根据图片的复杂程度和设备性能，选择合适的OpenCLIP模型。
环境变量管理：确保环境变量正确配置，避免API调用失败。
监控和调试：可选地使用LangSmith监控应用的运行状态，提高应用的可靠性。

如果遇到问题欢迎在评论区交流。

—END—