一、系统架构
LightRAG使用模块化架构,包含四个主要组件:
-
文档处理管道:将文档分割成片段并提取实体和关系
-
存储层:管理向量嵌入、知识图谱和文档状态
-
检索引擎:使用向量搜索和图遍历实现各种检索策略
-
响应生成:使用 LLM 基于检索到的上下文创建连贯的响应
二、核心组件
LightRAG 围绕几个相互作用的组件构建,每个组件都有特定的职责:
组件 |
描述 |
关键类 |
---|---|---|
存储层 |
管理不同类型的数据,具有专门的后端 |
BaseKVStorage, BaseVectorStorage, BaseGraphStorage, DocStatusStorage |
文件处理管道 |
将文档转换为块、实体和关系 |
extract_entities, merge_nodes_and_edges |
知识图谱 |
管理实体和关系连接 |
BaseGraphStorage |
查询引擎 |
使用知识图谱处理用户查询 |
kg_query, naive_query |
LLM集成 |
与不同的语言模型接口 |
lightrag/llm/ |
三、存储架构
LightRAG采用多层存储架构,具有针对不同数据类型的专用组件。这种设计允许灵活选择后端,并针对每种数据类型进行优化性能。
存储系统使用可插拔架构,具有多种实现选项:
-
键值(KV)存储:
-
存储完整文档、文本块和 LLM 响应缓存
-
默认实现:JsonKVStorage
-
其他后端:Redis、MongoDB
-
-
向量存储:
-
存储语义搜索的向量嵌入
-
默认实现:NanoVectorDBStorage
-
其他后端:Faiss、Milvus、Qdrant
-
-
图存储:
-
存储知识图谱结构
-
默认实现:NetworkXStorage
-
其他后端:Neo4j、MongoDB、PostgreSQL
-
-
文档状态存储:
-
跟踪文档处理状态
-
默认实现:JsonDocStatusStorage
-
存储后端多种可配置项:
存储类型 |
功能 |
可用后端 |
---|---|---|
KV存储 |
文档和文本块存储 |
JsonKVStorage, PGKVStorage, RedisKVStorage, MongoKVStorage |
向量存储 |
嵌入向量存储 |
NanoVectorDBStorage, PGVectorStorage, MilvusVectorDBStorage, ChromaVectorDBStorage, FaissVectorDBStorage, MongoVectorDBStorage, QdrantVectorDBStorage |
图存储 |
图边和节点存储 |
NetworkXStorage, Neo4JStorage, PGGraphStorage, AGEStorage, MemgraphStorage |
文档状态存储 |
文档处理状态 |
JsonDocStatusStorage, PGDocStatusStorage, MongoDocStatusStorage |
四、文档处理管道
LightRAG 通过一个复杂的管道处理文档,将原始文本转换为知识图谱,同时保留原始上下文:
-
文本处理步骤:
-
文档摄取:接收文档并分配唯一 ID。
-
分块:根据标记大小将文档拆分为更小的块。
-
实体提取:使用 LLM 识别每个块中的实体和关系。
-
知识图谱构建:实体成为节点,关系成为边。
-
向量嵌入:块、实体和关系嵌入以进行语义搜索。
-
-
多模态拓展:
五、查询引擎
LightRAG提供了多种不同的检索模式,用于确定如何检索信息:
-
naive:简单的向量搜索,没有知识图谱
-
local:关注上下文相关的信息
-
global:利用全局知识图谱连接
-
hybrid:结合本地和全局检索方法
-
mix:结合知识图谱和向量检索
通过更改QueryParam中的mode参数来尝试不同的模式。
模式 |
描述 |
用法 |
---|---|---|
naive |
简单的块向量搜索 |
基本文档检索 |
local |
针对查询中相关实体的知识图谱遍历 |
专注的上下文知识 |
global |
更广泛的知识图谱探索 |
广泛的知识综合 |
hybrid |
结合本地和全局方法 |
深度和广度之间的平衡 |
mix |
使用所有检索方法的复杂方法 |
最全面的检索 |
bypass |
直接LLM查询,不进行检索 |
当不需要外部知识时 |
六、LLM和嵌入集成
LightRAG设计用于与各种LLM提供商和嵌入模型一起工作,提供模型选择的灵活性:
-
LLM集成
-
支持的 LLM 提供商:OpenAI、Azure OpenAI、Anthropic、Hugging Face、Ollama
-
模型选择:通过环境变量或直接API进行配置
-
流式支持:异步流式响应以实现实时交互
-
缓存:内置响应缓存以减少API调用
-
-
嵌入模型
-
嵌入函数:可插拔的嵌入函数用于向量表示
-
批量处理:高效的批量处理以进行文档嵌入
-
缓存:嵌入缓存以减少冗余计算
-
七、数据流架构
LightRAG中的完整数据流从文档摄取到查询响应遵循循环模式:
八、扩展
LightRAG提供了几个扩展和集成点:
-
自定义知识图谱集成:
-
直接插入自定义知识图谱
-
与外部图数据源集成
-
-
重排序:
-
可选的重排序模型以改进检索质量
-
与各种重排序服务兼容
-
-
可视化工具:
-
知识图谱可视化功能
-
与Neo4j和其他可视化库集成
-
-
Web UI和API服务器:
-
内置Web界面用于文档管理
-
REST API用于与其他应用程序集成
-
之前商界有位名人说过:“站在风口,猪都能吹上天”。这几年,AI大模型领域百家争鸣,百舸争流,明显是这个时代下一个风口!
那如何学习大模型&AI产品经理?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
04.大模型面试题目详解
05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓