LangChain：基于ChatGPT对话私有数据

xianbin.yang

已于 2023-05-05 14:38:53 修改

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 语言模型

于 2023-05-05 10:52:31 首次发布

本文链接：https://blog.csdn.net/appearbeauty/article/details/130501851

文章介绍了一种方法，通过将文本转化为语义向量，使用Chroma向量数据库存储，并结合ChatGPT进行问答交互。当用户提问时，系统查找向量数据库中的近似文本，用作ChatGPT的输入，生成回答。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、架构图：

二、思路：

通过embbeding获得文本的语义，通过向量数据库获得近似记录，通过chatGPT得到问答内容
将文件拆分并embbeding后存入向量数据库
将用户问题embbeding后从向量数据库中找近似的文档数据作为prompt上下文

三、核心代码：

# pip install langchain chromadb openai tiktoken

import os
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory
from langchain.llms import OpenAI

# os.environ['OPENAI_API_KEY'] = 'ENTER YOUR API KEY'

# 1、加载文件
file_path = "./孔乙己.txt"
loader = TextLoader(file_path)

# 2、拆分文件
pages = loader.load_and_split()
embeddings = OpenAIEmbeddings()

# 3、将拆分后的文本embeddings后存储到Vector数据库
vectordb = Chroma.from_documents(pages, embedding=embeddings,
                                 persist_directory=".")
vectordb.persist()

# 4、保留对话记录到内存
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

# 5、将用户的query文本embeddings后到向量数据库查询近似的记录作为prompt，一起发送给LLM，获得结果
self_qa = ConversationalRetrievalChain.from_llm(OpenAI(temperature=0.9), vectordb.as_retriever(), memory=memory)

query = "孔乙己欠了酒店多少钱?"
result = self_qa({"question": query})
print("Answer:" + result["answer"])