在开发和测试大模型应用时,重复调试相同接口、验证功能变更、执行回归测试等操作常常导致大量重复请求。这不仅拖慢开发进度,还会造成不必要的API调用费用。本文将结合LangChain框架,用最接地气的方式教你如何为LLM接口添加缓存机制,助你节省时间与成本!
为什么要加缓存?三句讲清核心价值
- 省钱:相同问题重复提问时,缓存机制可避免重复扣费
- 提速:已缓存请求几乎秒回,告别漫长的等待
- 易用:LangChain提供开箱即用的缓存方案,代码改动极小
实战技巧:两种缓存方案对比
方案一:内存缓存(适合本地调试)
适用场景:单人开发时的临时调试,重启程序后缓存自动清除
# 安装必要组件
pip install -qU "langchain[openai]"
import os
from langchain_openai import ChatOpenAI
from langchain_core.globals import set_llm_cache
from langchain_core.caches import InMemoryCache
os.environ["deepseek-api-key"] = "sk-e3f022d1746f415c9b0f4bc9a52a43xx" # DeepSeek API Key
# 初始化模型并开启内存缓存
load_dotenv() # 加载环境变量
# 初始化模型并开启内存缓存
# ==== 目标对话模型 ====
llm = ChatOpenAI(
model="deepseek-chat",
api_key=os.environ["deepseek-api-key"], # DeepSeek API Key
temperature=0.7,
max_tokens=512,
timeout=60,
max_retries=3,
base_url="https://api.deepseek.com",
)
set_llm_cache(InMemoryCache())
# 发送测试请求
llm.invoke("请分享一个冷笑话")
运行效果:
- 首次调用:正常请求OpenAI API(约1秒)
- 二次调用:直接从内存读取结果(<10毫秒)
方案二:SQLite数据库缓存(适合团队协作)
适用场景:多人协作开发、长期项目维护,重启后仍保留缓存数据
import os
from langchain_openai import ChatOpenAI
from langchain_core.globals import set_llm_cache
from langchain_core.caches import InMemoryCache
from langchain_community.cache import SQLiteCache
from dotenv import load_dotenv
os.environ["deepseek-api-key"] = "sk-e3f022d1746f415c9b0f4bc9a52a43xx" # DeepSeek API Key
os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_PROJECT"] = "pr-warmhearted-bassoon-71"
os.environ["LANGSMITH_API_KEY"] = "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"
os.environ["LANGSMITH_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["DASHSCOPE_API_KEY"] = "sk-712a634dbaa7444d838d20b25eb938xx" # 通义千问的API-KEY,此处未用到,可注释
load_dotenv() # 加载环境变量
# 初始化模型并开启内存缓存
# ==== 目标对话模型 ====
llm = ChatOpenAI(
model="deepseek-chat",
api_key=os.environ["deepseek-api-key"], # DeepSeek API Key
temperature=0.7,
max_tokens=512,
timeout=60,
max_retries=3,
base_url="https://api.deepseek.com",
)
# 清理旧缓存(首次可跳过)
if os.path.exists(".langchain.db"):
os.remove(".langchain.db")
# 开启内存缓存
# set_llm_cache(InMemoryCache())
set_llm_cache(SQLiteCache(database_path=".langchain.db"))
while True:
# ==== Prompt 模板 ====
# prompt_template = """
# 你是一名资深的Python测试开发工程师,擅长编写测试工具及回答测试领域的各种问题。
# 请帮我编写一个关于将md表格输出为excel的python脚本!
# """
prompt_template = input("请输入你的问题(或按回车键使用默认问题):")
print(prompt_template)
# ==== 执行模型调用 ====
response = llm.invoke(prompt_template)
# ==== 输出结果 ====
print(response)
运行效果:
-
首次调用:写入数据库(约1秒)
-
后续调用:从本地数据库读取(<100毫秒)
-
支持多脚本共享缓存数据
缓存机制工作原理
- 问题编码:将用户输入和模型参数转化为唯一"问题ID"
- 查字典:检查本地缓存是否存在对应"问题ID"的解答
- 未命中处理:若无记录则请求API,并保存新记录
- 命中处理:直接返回本地记录,跳过网络请求
测试工程师应用场景
场景类型 | 缓存价值 |
---|---|
接口回归测试 | 相同测试用例可重复执行而不产生额外费用 |
性能基线测试 | 可对比首次调用与缓存调用的响应时间差异 |
Prompt调试 | 快速验证不同Prompt版本的效果,避免调试过程中的重复计费 |
多环境验证 | 在开发/测试环境预加载缓存数据,加快环境准备速度 |
使用建议与注意事项
✅ 推荐实践:
- 本地开发优先使用内存缓存(快速验证)
- 团队项目使用SQLite缓存(数据共享)
- 测试用例固定时启用缓存(降低CI成本)
⚠️ 注意事项:
- 生产环境应使用专业缓存系统(如Redis)
- 避免在高并发场景下使用SQLite
- 定期清理过期缓存(特别是涉及敏感数据时)
效果验证小技巧
- 日志观察法:在代码中添加调用计数器,观察相同请求的API调用次数
- 时间对比法:使用
time
模块记录首次与二次调用耗时 - 数据库检查:直接查看
.langchain.db
中的缓存记录 - 费用监控:对比启用缓存前后的API调用计费明细
总结:三步实现缓存加速
- 选择方案:根据开发场景选择内存或数据库缓存
- 代码集成:通过LangChain的
set_llm_cache()
快速启用 - 验证效果:通过测试用例验证缓存命中率和性能提升
下一步行动建议
- 在现有测试用例中添加缓存验证模块
- 对比不同缓存方案在CI环境中的表现
- 探索更复杂的缓存策略(如TTL过期时间)
- 研究企业级缓存方案(如Redis集群部署)
通过简单的缓存改造,你的测试效率可能提升数十倍,同时显著降低开发成本。现在就动手试试吧!🚀
拓展思考:除了LLM调用,你还可以将缓存机制应用于哪些测试场景?欢迎在评论区分享你的实践经验!