基于LangChain实现本地RAG知识库助手（上）

最新推荐文章于 2025-07-02 21:29:00 发布

大模型学习

最新推荐文章于 2025-07-02 21:29:00 发布

阅读量1k

点赞数 26

CC 4.0 BY-SA版权

文章标签： langchain 学习笔记产品经理人工智能面试

本文链接：https://blog.csdn.net/CSDN_430422/article/details/144909897

一、为什么需要RAG技术？

大型语言模型（LLM）相较于传统的语言模型具有更强大的能力，然而在某些情况下，它们仍可能无法提供准确的答案。比如，受限于模型训练时的语料，存在如下问题：

知识更新滞后性： LLM 基于静态的数据集训练，这可能导致模型的知识更新滞后，无法及时反映最新的信息动态。
领域专业知识能力欠缺： LLM 在处理特定领域的专业知识时，效果可能不太理想，这可能会影响到其在相关领域的回答质量。
信息偏差/幻觉： LLM 有时会产生与客观事实不符的信息，导致用户接收到的信息不准确。
…

我们可以借助检索增强生成（RAG, Retrieval-Augmented Generation）技术，缓解上述问题。RAG巧妙地整合了从庞大知识库中检索到的相关信息，并以此为基础，指导大型语言模型生成更为精准的答案（个人理解为外挂一个知识库），可显著提升回答的准确性与深度，且相较于直接对模型进行微调，采用RAG技术无需重新训练模型，信息更新成本低。具体的，RAG技术和模型微调技术相比，具有以下特点：

图1：RAG VS 模型微调

二、LangChain框架介绍

LangChain 框架是一个开源工具，其目标是为各种大型语言模型应用提供通用接口，从而简化应用程序的开发流程，特别适用于在一个LLM应用中需提供多个语言模型/词嵌入模型的业务场景。基于LangChain实现RAG应用开发的流程如下：

图2：基于LangChain开发RAG应用的一般流程

在上图中，每个椭圆形代表了 LangChain 的一个模块，例如数据收集模块或预处理模块。每个矩形代表了一个数据状态，例如原始数据或预处理后的数据。箭头表示数据流的方向，从一个模块流向另一个模块。在每一步中，LangChain 都可以提供对应的解决方案，帮助我们处理各种任务。

三、基于LangChain开发本地知识库助手的一般流程

参考图2，基于LangChain开发本地知识库助手的一般流程具体可分为以下几个过程：

加载并读取本地文档
文本分割
文本向量化
question 向量化
在文本向量中匹配出与问句向量最相似的 top k 个
匹配出的文本作为上下文和问题一起添加到 Prompt 中
提交给 LLM 生成回答。

以下将逐过程描述如何实现上述步骤。

3.1 加载并读取本地文档

用户常用文档格式有 PDF、TXT、MD 等，首先，我们可以使用 LangChain 的文档加载器模块方便地加载用户提供的文档，示例代码如下：

from langchian.document_loaders.pdf import PyMuPDFLoader      # 创建一个 示例，输入为 待加载的PDF文档所在路径   loader = PyMuPDFLoader(paf_path)      # 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载   pdf_pages = loader.load()

page 中的每一元素为一个文档，变量类型为 langchain_core.documents.base.Document,

文档变量类型包含两个属性:

page_content 包含该文档的内容。
meta_data 为文档相关的描述性数据。

3.2 数据清洗

我们希望向量库中的数据尽量是优质的、有序的、精简的，因此我们需要对读取后的文件进行处理，一种常见的情况是：

读取后的文件中，在每句话后面按原文的分行添加了一个\n
也在原本的两个符号之间添加了\n

我们可以通过正则表达式去掉多余的\n。

import re   pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)   pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)   print(pdf_page.page_content)

3.3 文档分割

由于单个文档的长度往往会超过大模型支持的上下文长度，导致检索得到的知识太长超出了模型处理能力。因此需要将读入的单个文档进行分割：将单个文档按一定规则划分为若干个chunk，然后再将chunk转化为词向量，最后将此词向量存入向量数据库中以供检索。

在检索时，我们以chunk作为检索单元，也就是说，每次将检索到的k个chunk作为参考来回答用户所提出的问题。这个k是我们自行定义的。

在LangChain中，文本分割器是根据chunk_size(块大小)和chunk_overlap(块与块之间的重叠部分大小)。

LangChain文本分割器示意图

chunk_size ：指每个块包含的字符或 Token （如单词、句子等）的数量
chunk_overlap：指两个块之间共享的字符数量，用于保持上下文的连贯性，避免分割丢失上下文信息

Langchain 提供多种文档分割方式，区别在怎么确定块与块之间的边界、块由哪些字符/token组成、以及如何测量块大小。

LangChain文本分类器参考链接:https://python.langchain.com/api_reference/text_splitters/index.html

from langchain_text_splitters.character import RecursiveCharacterTextSplitter      # 知识库中单段文本长度   CHUNK_SIZE = 500      # 知识库中相邻文本重合长度   OVERLAP_SIZE = 50      # 使用递归字符文本分割器   text_splitter = RecursiveCharacterTextSplitter(       chunk_size = CHUNK_SIZE,       chunk_overlap = OVERLAP_SIZE   )      # 进行文本分割   text_splitter.split_text(pdf_page.page_content[0:1000])      # 检查切分后文件的数量   split_docs = text_splitter.split_documents(pdf_pages)   print(f"切分后的文件数量：{len(split_docs)}")   print(type(split_docs))      print(f"切分后的字符数(用于大致评估需要token数)：{sum([len(doc.page_content) for doc in split_docs])}")

3.4 构建向量库

文档分割完成后，我们需要将文档持久化保存到本地中，可调用LangChain的embedding方法，并基于chroma实现本地化存储。

from langchain_community.embeddings import ZhipuAIEmbeddings      # 加载词嵌入模型   embedding = ZhipuAIEmbeddings(       model="embedding-3",       api_key=ZHIPUAI_API_KEY,       dimensions=EMBEDDING_DIMENSION,   )      # 定义持久化路径   import os   persist_directory = '待填写'      # 检查文件夹是否存在   # 若存在,则报错;   # 若不存在,则进行创建   if os.path.exists(persist_directory):       raise FileExistsError(f"文件夹{persist_directory}已存在")   else:       os.makedirs(persist_directory)       print(f"{persist_directory}创建成功")          from langchain_chroma import Chroma      vector_store = Chroma.from_documents(       documents=split_docs[:20], # 切分后的chunks       embedding=embedding,  # embedding模型,在此处为之前预先定义的ZhipuAIEmbeddings()       persist_directory=persist_directory, # 永久化保存路径,指定后embedding结果将保存在该路径;否则将保存在内存在   )

# 检查向量库中存储的数量   print(f"向量库中存储向量的数量：{vector_store._collection.count()}")

当我们需要从本地的chroma向量库中检索向量时，一般基于余弦距离计算相似度，而后进行检索，计算公式如下：

question = "什么是机器学习?"      # query:想要检索的问题   # k,返回结果的数量   sim_docs = vector_store.similarity_search(query=question, k=3)      print(f"检索到的内容数：{len(sim_docs)}")      for i,sim_doc in enumerate(sim_docs,start=1):       print(f"检索到的第{i}个内容：\n{sim_doc.page_content}",end="\n--------------\n")

后续计划更新：如何将LLM接入LangChain，结合本次推送内容，并使用LCEL构建完整RAG应用。