LLM接口调用缓存实战指南——测试工程师的效率加速器-CSDN博客

在开发和测试大模型应用时，重复调试相同接口、验证功能变更、执行回归测试等操作常常导致大量重复请求。这不仅拖慢开发进度，还会造成不必要的API调用费用。本文将结合LangChain框架，用最接地气的方式教你如何为LLM接口添加缓存机制，助你节省时间与成本！

为什么要加缓存？三句讲清核心价值

省钱：相同问题重复提问时，缓存机制可避免重复扣费
提速：已缓存请求几乎秒回，告别漫长的等待
易用：LangChain提供开箱即用的缓存方案，代码改动极小

实战技巧：两种缓存方案对比

方案一：内存缓存（适合本地调试）

适用场景：单人开发时的临时调试，重启程序后缓存自动清除

# 安装必要组件
pip install -qU "langchain[openai]"

import os
from langchain_openai import ChatOpenAI
from langchain_core.globals import set_llm_cache
from langchain_core.caches import InMemoryCache
os.environ["deepseek-api-key"] = "sk-e3f022d1746f415c9b0f4bc9a52a43xx"  # DeepSeek API Key

# 初始化模型并开启内存缓存
load_dotenv()  # 加载环境变量
# 初始化模型并开启内存缓存
# ==== 目标对话模型 ====
llm = ChatOpenAI(
    model="deepseek-chat",
    api_key=os.environ["deepseek-api-key"],  # DeepSeek API Key
    temperature=0.7,
    max_tokens=512,
    timeout=60,
    max_retries=3,
    base_url="https://api.deepseek.com",
)
set_llm_cache(InMemoryCache())

# 发送测试请求
llm.invoke("请分享一个冷笑话")

运行效果：

首次调用：正常请求OpenAI API（约1秒）
二次调用：直接从内存读取结果（<10毫秒）

方案二：SQLite数据库缓存（适合团队协作）

适用场景：多人协作开发、长期项目维护，重启后仍保留缓存数据


import os
from langchain_openai import ChatOpenAI
from langchain_core.globals import set_llm_cache
from langchain_core.caches import InMemoryCache
from langchain_community.cache import SQLiteCache
from dotenv import load_dotenv
os.environ["deepseek-api-key"] = "sk-e3f022d1746f415c9b0f4bc9a52a43xx"  # DeepSeek API Key
os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_PROJECT"] = "pr-warmhearted-bassoon-71"
os.environ["LANGSMITH_API_KEY"] = "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"
os.environ["LANGSMITH_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["DASHSCOPE_API_KEY"] = "sk-712a634dbaa7444d838d20b25eb938xx"  # 通义千问的API-KEY,此处未用到，可注释

load_dotenv()  # 加载环境变量
# 初始化模型并开启内存缓存
# ==== 目标对话模型 ====
llm = ChatOpenAI(
    model="deepseek-chat",
    api_key=os.environ["deepseek-api-key"],  # DeepSeek API Key
    temperature=0.7,
    max_tokens=512,
    timeout=60,
    max_retries=3,
    base_url="https://api.deepseek.com",
)
# 清理旧缓存（首次可跳过）
if os.path.exists(".langchain.db"):
    os.remove(".langchain.db")

# 开启内存缓存
# set_llm_cache(InMemoryCache())
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

while True:
    # ==== Prompt 模板 ====
    # prompt_template = """
    # 你是一名资深的Python测试开发工程师，擅长编写测试工具及回答测试领域的各种问题。
    # 请帮我编写一个关于将md表格输出为excel的python脚本！
    # """
    prompt_template = input("请输入你的问题（或按回车键使用默认问题）：")
    print(prompt_template)
    # ==== 执行模型调用 ====
    response = llm.invoke(prompt_template)

    # ==== 输出结果 ====
    print(response)

运行效果：

首次调用：写入数据库（约1秒）
后续调用：从本地数据库读取（<100毫秒）
支持多脚本共享缓存数据

缓存机制工作原理

问题编码：将用户输入和模型参数转化为唯一"问题ID"
查字典：检查本地缓存是否存在对应"问题ID"的解答
未命中处理：若无记录则请求API，并保存新记录
命中处理：直接返回本地记录，跳过网络请求

测试工程师应用场景

场景类型	缓存价值
接口回归测试	相同测试用例可重复执行而不产生额外费用
性能基线测试	可对比首次调用与缓存调用的响应时间差异
Prompt调试	快速验证不同Prompt版本的效果，避免调试过程中的重复计费
多环境验证	在开发/测试环境预加载缓存数据，加快环境准备速度