一、为什么需要RAG技术?
大型语言模型(LLM)相较于传统的语言模型具有更强大的能力,然而在某些情况下,它们仍可能无法提供准确的答案。比如,受限于模型训练时的语料,存在如下问题:
-
知识更新滞后性: LLM 基于静态的数据集训练,这可能导致模型的知识更新滞后,无法及时反映最新的信息动态。
-
领域专业知识能力欠缺: LLM 在处理特定领域的专业知识时,效果可能不太理想,这可能会影响到其在相关领域的回答质量。
-
信息偏差/幻觉: LLM 有时会产生与客观事实不符的信息,导致用户接收到的信息不准确。
-
…
我们可以借助检索增强生成(RAG, Retrieval-Augmented Generation)技术,缓解上述问题。RAG巧妙地整合了从庞大知识库中检索到的相关信息,并以此为基础,指导大型语言模型生成更为精准的答案(个人理解为外挂一个知识库),可显著提升回答的准确性与深度,且相较于直接对模型进行微调,采用RAG技术无需重新训练模型,信息更新成本低。具体的,RAG技术和模型微调技术相比,具有以下特点:
图1:RAG VS 模型微调
二、LangChain框架介绍
LangChain 框架是一个开源工具,其目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程,特别适用于在一个LLM应用中需提供多个语言模型/词嵌入模型的业务场景。基于LangChain实现RAG应用开发的流程如下:
图2:基于LangChain开发RAG应用的一般流程
在上图中,每个椭圆形代表了 LangChain 的一个模块
,例如数据收集模块或预处理模块。每个矩形代表了一个数据状态
,例如原始数据或预处理后的数据。箭头表示数据流的方向,从一个模块流向另一个模块。在每一步中,LangChain 都可以提供对应的解决方案,帮助我们处理各种任务。
三、基于LangChain开发本地知识库助手的一般流程
参考图2,基于LangChain开发本地知识库助手的一般流程具体可分为以下几个过程:
-
加载并读取本地文档
-
文本分割
-
文本向量化
-
question 向量化
-
在文本向量中匹配出与问句向量最相似的 top k 个
-
匹配出的文本作为上下文和问题一起添加到 Prompt 中
-
提交给 LLM 生成回答。
以下将逐过程描述如何实现上述步骤。
3.1 加载并读取本地文档
用户常用文档格式有 PDF、TXT、MD 等,首先,我们可以使用 LangChain 的文档加载器模块方便地加载用户提供的文档,示例代码如下:
from langchian.document_loaders.pdf import PyMuPDFLoader # 创建一个 示例,输入为 待加载的PDF文档所在路径 loader = PyMuPDFLoader(paf_path) # 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载 pdf_pages = loader.load()
page 中的每一元素为一个文档,变量类型为 langchain_core.documents.base.Document
,
文档变量类型包含两个属性:
-
page_content
包含该文档的内容。 -
meta_data
为文档相关的描述性数据。
3.2 数据清洗
我们希望向量库中的数据尽量是优质的、有序的、精简的,因此我们需要对读取后的文件进行处理,一种常见的情况是:
-
读取后的文件中,在每句话后面按原文的分行添加了一个
\n
-
也在原本的两个符号之间添加了
\n
我们可以通过正则表达式去掉多余的\n
。
import re pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL) pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content) print(pdf_page.page_content)
3.3 文档分割
由于单个文档的长度往往会超过大模型支持的上下文长度,导致检索得到的知识太长超出了模型处理能力。因此需要将读入的单个文档进行分割:将单个文档按一定规则划分为若干个chunk
,然后再将chunk
转化为词向量,最后将此词向量存入向量数据库中以供检索。
在检索时,我们以chunk
作为检索单元,也就是说,每次将检索到的k个chunk
作为参考来回答用户所提出的问题。这个k
是我们自行定义的。
在LangChain中,文本分割器是根据chunk_size(块大小)
和chunk_overlap(块与块之间的重叠部分大小)
。
LangChain文本分割器示意图
-
chunk_size
:指每个块包含的字符或 Token (如单词、句子等)的数量 -
chunk_overlap
:指两个块之间共享的字符数量,用于保持上下文的连贯性,避免分割丢失上下文信息
Langchain 提供多种文档分割方式,区别在怎么确定块与块之间的边界、块由哪些字符/token组成、以及如何测量块大小。
LangChain文本分类器参考链接:https://python.langchain.com/api_reference/text_splitters/index.html
from langchain_text_splitters.character import RecursiveCharacterTextSplitter # 知识库中单段文本长度 CHUNK_SIZE = 500 # 知识库中相邻文本重合长度 OVERLAP_SIZE = 50 # 使用递归字符文本分割器 text_splitter = RecursiveCharacterTextSplitter( chunk_size = CHUNK_SIZE, chunk_overlap = OVERLAP_SIZE ) # 进行文本分割 text_splitter.split_text(pdf_page.page_content[0:1000]) # 检查切分后文件的数量 split_docs = text_splitter.split_documents(pdf_pages) print(f"切分后的文件数量:{len(split_docs)}") print(type(split_docs)) print(f"切分后的字符数(用于大致评估需要token数):{sum([len(doc.page_content) for doc in split_docs])}")
3.4 构建向量库
文档分割完成后,我们需要将文档持久化保存到本地中,可调用LangChain
的embedding
方法,并基于chroma
实现本地化存储。
from langchain_community.embeddings import ZhipuAIEmbeddings # 加载词嵌入模型 embedding = ZhipuAIEmbeddings( model="embedding-3", api_key=ZHIPUAI_API_KEY, dimensions=EMBEDDING_DIMENSION, ) # 定义持久化路径 import os persist_directory = '待填写' # 检查文件夹是否存在 # 若存在,则报错; # 若不存在,则进行创建 if os.path.exists(persist_directory): raise FileExistsError(f"文件夹{persist_directory}已存在") else: os.makedirs(persist_directory) print(f"{persist_directory}创建成功") from langchain_chroma import Chroma vector_store = Chroma.from_documents( documents=split_docs[:20], # 切分后的chunks embedding=embedding, # embedding模型,在此处为之前预先定义的ZhipuAIEmbeddings() persist_directory=persist_directory, # 永久化保存路径,指定后embedding结果将保存在该路径;否则将保存在内存在 )
# 检查向量库中存储的数量 print(f"向量库中存储向量的数量:{vector_store._collection.count()}")
当我们需要从本地的chroma
向量库中检索向量时,一般基于余弦距离计算相似度,而后进行检索,计算公式如下:
question = "什么是机器学习?" # query:想要检索的问题 # k,返回结果的数量 sim_docs = vector_store.similarity_search(query=question, k=3) print(f"检索到的内容数:{len(sim_docs)}") for i,sim_doc in enumerate(sim_docs,start=1): print(f"检索到的第{i}个内容:\n{sim_doc.page_content}",end="\n--------------\n")
后续计划更新:如何将LLM接入LangChain,结合本次推送内容,并使用LCEL
构建完整RAG应用。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《AI大模型入门+进阶学习资源包**》,扫码获取~
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
路线图很大就不一一展示了 (文末领取)
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
👉GitHub海量高星开源项目👈
💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告(持续更新)👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓