迈向代理时代的混合推理模型
Deepseek 3.1's features from official announcement
2025年8月,来自中国的AI初创公司DeepSeek发布了最新的大型语言模型DeepSeek-V3.1,被称为其“迈向代理时代的第一步”deepseek。与以往版本不同,V3.1引入了混合推理架构:在一个模型中同时支持“思考”(即链式推理模式)和“非思考”(直接回答模式)两种工作模式,并可以通过特殊标记在二者之间自由切换huggingface。这一设计使V3.1成为真正的**“一体化”模型,统一了通用对话、复杂推理和代码能力,避免了以往需要单独的推理专用模型(如R1系列)与基础模型分离的局面decoder。官方强调,V3.1的推出标志着模型功能从纯聊天向更强的代理(agent)技能拓展,例如工具使用、多步骤推理,以及编程辅助等deepseek。发布当日的演示中,DeepSeek展示了模型如何在“DeepThink”按钮切换下,通过<think>标签启用思考模式,从而表现出类似人类链式思考的能力。这一混合推理理念与Anthropic公司采用的混合模型(如Claude Opus和Sonnet)的思路类似decoder。伴随模型发布,DeepSeek还开放了聊天界面和API,并提供MIT开源许可的模型权重,允许研究者和开发者免费下载和使用。社区对此反响热烈,Hugging Face上线短短几天,V3.1即登上趋势榜单前列toolstac。本文将从模型技术细节、训练与架构、性能基准、工具使用、社区反馈和同类模型比较等方面,深入分析DeepSeek-V3.1及其在最新LLM版图中的意义。
架构与训练:6710亿参数的高效Mixture-of-Experts
规模与架构: DeepSeek-V3.1沿用了V3系列的Mixture-of-Experts (MoE)架构,模型总参数高达6710亿,但每次推理仅激活约370亿参数post。也就是说,它通过路由机制选用一部分专家网络参与计算,从而在保持海量容量的同时控制每步计算成本。这一架构被称为DeepSeek-MoE,配合多头潜在注意力(MLA)机制,以提升大模型推理效率并保持性能medium。
Basic architecture of DeepSeek-V3
值得注意的是,V3.1在架构上与之前的V3基本相同,并未增加参数规模或改变网络结构——核心改进在于训练策略和推理模式的变化。然而,在MoE内部,DeepSeek团队创新地采用了无辅助损失的负载均衡策略,避免传统MoE为均衡专家使用率而引入的损失项对模型精度的副作用medium。同时,引入多Token预测(MTP)的训练目标,让模型一次预测多个连续Token,提高模型在下游任务的质量,并为推理时的推测式解码(speculative decoding)提供支持medium。这些架构与训练目标上的改进,旨在在超大规模参数下实现稳定训练和高效推理arxiv。
Multi-Token Prediction (MTP)
预训练与长上下文扩展: DeepSeek-V3.1的基础模型预训练累计使用了14.8万亿Token的大规模高质量语料github。在此基础上,团队采用两阶段长上下文扩展方法(YaRN,arxiv),将模型上下文窗口大幅拓展到128K。
YaRN
首先,他们以约6300亿Token对模型进行32K上下文的扩展训练,是V3模型长上下文训练量的十倍post;接着又使用约2090亿Token进行128K上下文的扩展训练,是原有基础的3.3倍。总计约8400亿额外Token的训练,使V3.1能够高效处理长达128,000个Token的上下文,相当于同时处理两部英文长篇小说的容量toolstac。值得一提的是,DeepSeek团队报告整个训练过程非常稳定,在超大规模训练中没有出现无法恢复的发散或回滚arxiv。训练用时和成本也引人瞩目:据技术报告,V3模型完整预训练耗时约278.8万 GPU小时(基于H800算力),成本仅约560万美元toolstac——显著低于西方大厂通常投入的上亿美元级别成本。这种“低成本训练”模式一度引发行业震动,据报道曾影响到GPU厂商股价。DeepSeek-V3.1在此基础上进一步扩展,仍将总成本控制在千万美元级别,为开放社区提供高性价比的前沿模型。
Training costs of DeepSeek-V3, assuming the rental price of H800 is $2 per GPU hour
FP8低精度训练: 为提升大模型训练效率,DeepSeek-V3.1率先在超大规模模型上验证了8比特浮点(FP8)混合精度训练的可行性arxiv。他们采用了一种称为UE8M0的FP8格式进行模型存储和计算huggingface。FP8比传统FP16进一步降低计算和显存需求,但需要在精度和稳定性上克服挑战。
The overall mixed precision framework with FP8 data format
DeepSeek通过软硬件协同优化,实现了跨节点的通信计算重叠、低精度张量乘法精度改进等,使FP8在如此大模型上训练依然稳定(如下图)。这种FP8微缩“microscaling”技术同样适用于推理,使V3.1在新一代GPU上能以更低精度高效运行router。HuggingFace提供的信息显示,V3.1权重可选择BF16、FP8_E4M3或FP32三种精度格式,以适配不同硬件。FP8训练和推理的成功应用,预示着下一代AI加速器将更广泛地采纳低精度方案来降低大模型成本medium。
Quantization method
知识蒸馏与模式融合: DeepSeek-V3.1之所以能够统一推理模式,一个关键步骤是在后期训练中引入知识蒸馏:将DeepSeek-R1系列长链路推理模型(长CoT模型)所擅长的推理能力,蒸馏融入V3基础模型中github。据技术报告,团队通过特殊的训练管线,将R1模型在验证、反思式Chain-of-Thought方面的行为迁移到V3.1上,同时控制输出风格和长度,使其兼具R1的深度推理能力和V3的简洁表述。这种方法类似于学术界近期的链式推理蒸馏工作(如下图),即用大型“思考型”教师模型生成中间推理步骤,指导学生模型学习推理过程acl。
Distilling Reasoning Capabilities into Smaller Language Models
DeepSeek团队证明,即使保持相同规模,基础模型也能通过蒸馏“学会思考”,从而无需单独维护一个推理专用大模型(R1)。V3.1正是V3基础模型 + R1推理能力的融合体,其在“思考模式”下的表现可与R1-0528版本相媲美huggingface。这一创新使DeepSeek在一个模型中实现了通用对话和复杂推理的统一,被社区誉为“Hybrid All-in-One”的里程碑medium。
混合推理与工具使用:<think> 标签切换思考模式
两种推理模式定义: DeepSeek-V3.1最大的亮点在于混合推理能力。模型可以在“非思考”和“思考”两种模式间切换,从而兼顾不同任务需求。在非思考模式下,模型直接给出回答,输出风格类似传统对话模型,回答简洁快速,适合简单提问或实时交互场景post。
Non-Thinking Template
在思考模式下,模型会在给出最终答案前进行内部的连贯推理过程,相当于让模型先思考后作答,适合复杂推理、多步骤计算或代码生成等场景。DeepSeek通过在对话模板中加入特殊标记<think>和</think>实现模式控制:当用户Prompt中Assistant回答部分以<think>开头时,模型进入思考模式,会输出隐藏的链式推理内容;而以</think>开头则表示非思考模式,直接输出最终结果huggingface。
Thinking Template
据官方说明,V3.1提供了相应的聊天模板规范(如上两图),开发者可以在对话历史中注入这些标记,以显式指示模型采用哪种推理方式。例如,单轮对话中,Assistant角色Prompt以</think>起始则是普通回答模式,而以<think>起始则触发推理模式huggingface.co。多轮对话中,历史记录中的推理内容会被封装在<think>... </think>之间,仅供模型参考不会直接呈现给用户huggingface。这样的设计确保了思考过程对用户透明但可控:开发者或系统可以选择隐藏模型的内部思路,只呈现最后答案,也可以在调试时让模型将推理过程输出检查。这种<think>标签策略在OpenAI社区也有所探讨,如符号化Chain-of-Thought方法等,但DeepSeek是首个在超大模型上大规模实现并开放此功能的reddit。
推理模式的行为差异: V3.1的非思考模式和思考模式在行为上有显著差异。在非思考模式下,模型倾向于一步到位给出答案,不展示中间推理过程,因此响应速度快、字数较少。相应地,其对复杂问题可能缺乏分步解题能力,准确率略逊于思考模式。而在思考模式下,模型会先输出一系列推理步骤(通常这些步骤被API或前端拦截,不直接展示),最终产出答案。这使得它在数学、多跳推理、代码调试等任务上更严谨和准确,但以往代价是输出冗长、速度变慢decoder。DeepSeek-V3.1通过蒸馏优化,大幅提高了思考效率。内部测试显示,在链式推理任务上,V3.1-Think模式往往能用更少的推理步骤达到同等甚至更高的正确率:例如某些任务R1需6千字Tokens才能完成推理,而V3.1仅用1.5千Tokens就得出结果reddit。官方公布的数据也表明,V3.1的思考模式在保持接近R1准确率的同时,响应长度和时延明显降低。具体如GPQA问答任务,R1思考模式准确率81.0%,V3.1思考为80.1%几乎持平,但V3.1平均输出长度减少近一半;在AIMÉ医学考试等复杂推理上,V3.1思考模式略超R1(88.4%对87.5%),而总输出Tokens比R1减少30%。
Performance Benchmarks
这些提升意味着用户在使用“思考模式”时,不仅能获得更严谨的回答,还能享受更快的响应huggingface。DeepSeek官方宣称V3.1-Think模式“在更短时间内到达答案”,相较R1推理速度有明显加速deepseek。因此,V3.1实现了推理深度与效率的双赢:在需要时启用思考模式确保复杂任务的质量,其速度损耗比旧版显著减小;而对于普通问题可用非思考模式即时响应,在小幅准确率牺牲下换取极高吞吐和低延迟。
工具与Agent支持: 除了推理模式切换,DeepSeek-V3.1在工具使用和Agent任务方面也有重大改进。经过后期微调优化,模型对函数调用和外部工具的使用能力显著增强huggingface。尤其在“非思考模式”下,V3.1可按照特定格式调用预定义的工具或API,辅助完成任务。HuggingFace模型卡明确指出:工具调用仅支持在非思考模式,开发者需在Prompt中提供工具描述和调用占位符,并以</think>结束Assistant前缀来启用工具模式。模型会遵循给定格式,在<tool_call_begin>和<tool_call_end>标记内填入所需的工具名和参数,然后通过Agent框架执行工具,再继续回答:
<|begin▁of▁sentence|>{system prompt}\n\n{tool_description}<|User|>{query}<|Assistant|></think>
“tool_description”格式如下:
<|tool▁calls▁begin|><|tool▁call▁begin|>tool_call_name<|tool▁sep|>tool_call_arguments<|tool▁call▁end|>{additional_tool_calls}<|tool▁calls▁end|>
在V3.1的字典中新增了4个特殊Token,与搜索功能相关:<|search_begin|>和<|search_end|>用于包裹搜索查询,模型在推理中自动产生日志式搜索指令,后台执行后再将结果反馈reddit。这一内置“Search-Agent”能力让模型在需要外部知识时,能够主动检索资料,从而解决封闭大模型知识截至训练时刻的局限。有测试者注意到,即使关闭搜索按钮,V3.1在思考模式下仍会尝试发起搜索查询,除非用户明确要求“不搜索”reddit。这表明DeepSeek已将检索型Agent深度融合进模型行为中。再如代码代理方面,DeepSeek提供了一个带有完整交互协议的模板,使模型能够像ChatGPT插件那样执行代码:模型输出<code>片段、运行结果、错误信息,再多轮迭代,直到问题解决post。在软件开发场景下,V3.1可帮助用户阅读理解大段代码(借助其长上下文优势)、编写或改进代码,并通过Agent执行单元测试、调试错误,展现出类Copilot+类ChatGPT的综合能力medium。需要强调的是,目前思考模式下仍禁用了函数/工具调用decoder。Artificial Analysis等专家指出,这是V3.1的一大限制:由于思考模式不能直接调用函数,无法在推理链中插入实时工具,例如读取图像或执行代码。相比之下,OpenAI的GPT-5“思考版”或Anthropic的新模型已经允许在Chain-of-Thought中嵌入工具使用(如解析图片、代码执行等),从而提升复杂任务的整体能力decoder。因此社区存在一些担忧,认为DeepSeek若不尽快打通思考模式下的工具接口,可能在真正的Agent任务上受限。不过在V3.1发布后不久,开源推理项目vLLM等已着手支持DeepSeek的思考内容解析和工具输出,以方便开发者在自己应用中组合链式推理和工具使用x。总的来说,DeepSeek-V3.1在Agent化方面迈出坚实一步:它的工具使用能力和多步任务表现远胜从前版本,但完全融合两种模式下的优势仍有改进空间。
性能评测:推理效率提升,代码与代理任务表现突出
DeepSeek官方和社区对V3.1进行了广泛的基准测试,涵盖语言理解、专业问答、推理、编程和多语言等领域。结果显示,V3.1在许多关键指标上取得了较大跃升,尤其在编码和Agent任务上超越了以前的SOTA开源模型。以下摘取部分具有代表性的评测结果:
-
常识与专业问答: 在通用评测MMLU上,V3.1略有提升,思考模式准确率达93.7%,超过3月发布的V3-0324模型(90.5%)并略高于R1-0528(93.4%)huggingface。这表明尽管V3.1主打Agent和代码,但其基础知识和常识问答能力仍保持在开源模型的顶尖水平。在更困难的专业版MMLU-Pro上亦是如此(84.8% vs R1的85.0%相当)。GPQA-Diamond(复杂问答)任务中,V3.1思考模式80.1%的Pass@1准确率几乎追平R1的81.0%,远高于非思考模式的74.9%。这证实了思考模式对复杂问答的必要性和有效性。同样在多跳推理的基准HLE(Humanity’s Last Exam)上,V3.1思考模式取得15.9%,略低于R1的17.7%,但若允许结合内部搜索(Python+Search版本),V3.1可达29.8%,领先R1的24.8%。这些指标显示,V3.1在需要链式推理或检索的挑战性问答任务上,与R1相当或稍有超越,同时借助其Search-Agent能力在开放领域问答中有明显优势。
Evaluation
-
代码能力: DeepSeek-V3.1在编程相关任务上的表现令人瞩目。最新的LiveCodeBench评测(实时代码生成挑战)中,V3.1思考模式实现74.8%的正确率,超过R1的73.3%,且远高于先前V3模型的43.0%。在开源社区关注的Aider-Polyglot基准(代码编辑与多语言问题),V3.1思考模式正确率达76.3%,相比R1提升近5个百分点huggingface。第三方测评指出,这一分数已经接近甚至超过Anthropic Claude 4等专有模型在同类任务上的表现toolstac。值得一提的是,V3.1的非思考模式在编程任务上也有长足进步:如SWE Bench多语言代码题中,非思考模式达54.5%,远高于V3-0324的29.3%,仅比R1略低。SWE-Bench Verified(软件工程题目自动验证)更是V3.1一枝独秀,Agent模式下通过率66.0%,较R1的44.6%大幅提升,几乎达到之前成绩的1.5倍。这些数据表明,DeepSeek-V3.1在代码生成和调试领域取得了开源模型新的SOTApost。社区普遍反馈V3.1在代码对话中展现出更强的逻辑和问题定位能力,复杂编程任务上不亚于一些商业模型medium。例如,在Codeforces编程竞赛模拟上,V3.1推理模式的预计Rating达到2091,相比R1的1930有明显提高。
Evaluation
-
代理与多步任务: 得益于工具调用和长上下文的增强,V3.1在涉及环境交互的任务上成绩斐然。在DeepSeek内测的浏览问答(BrowseComp)中,V3.1通过内置搜索Agent获取信息,其得分达到30.0(可能是综合指标),而R1先前仅为8.9。特别是在中文网页的浏览理解(BrowseComp_zh)上,V3.1达到49.2分,远胜R1的35.7。这说明V3.1能更好地利用搜索工具处理非英文信息,这是面向全球用户的重要改进。同样,在终端操作任务Terminal-Bench中,V3.1使用终端Agent完成复杂指令序列的成功率为31.3%,而R1几乎不擅长此类任务(仅5.7%)。这些进步反映出V3.1朝着通用人工智能代理又迈进了一步。DeepSeek官方发布中提到V3.1在SWE(软件工程)和Terminal-Bench等多步任务上取得更好结果deepseek。实际上,上述数据印证了这一点:V3.1在需要调用外部工具或多轮交互的复杂任务上,展现了远超前代模型的效率和成功率。不过也有指标显示V3.1仍有提升空间,例如简单问答(SimpleQA)这种无需推理的任务上,非思考模式准确率93.4%,和R1的92.3%接近,只是小幅改进。这也验证了模型在追求复杂推理的同时,并未显著牺牲简易任务性能。
Evaluation
Evaluation
-
综合指数与排名: 为了衡量模型的整体智能,独立机构Artificial Analysis定义了包含7大类测试的AAI(人工分析智能)指数。据该机构初步评测,DeepSeek-V3.1在思考模式下的AAI指数为60,略高于年初R1模型的59decoder。这表明V3.1总体能力相比R1小幅提升。但需要注意,相比其他最新大模型,V3.1尚未夺回开源桂冠:阿里巴巴的Qwen-3 (235B)最新“思考版”模型在AAI指数上得分略高(据称略超60分),重新领先于V3.1;同样,OpenAI近期开源的GPT-OSS(一款专注推理的小型模型)也稍胜V3.1一筹。此外,Anthropic的Claude 4 Opus、Moonshot的Kimi K2等新秀模型在一些对比中各有千秋,例如据社区数据它们在AAI指数约为58左右。总体来说,DeepSeek-V3.1的发布使其在开源模型综合能力排行榜中名列前茅,但尚未明显拉开与主要竞品的差距。这也难怪引发一些讨论:究竟V3.1算是小步升级,还是具备质变意义? 部分观察者(如行业评论员Will Brown)认为V3.1只是沿着V3系列的“小版本迭代,略有改进”,并无颠覆性突破x。然而也有资深用户(如Teortaxes等DeepSeek社区铁粉)指出,混合推理和Agent能力的引入是对模型定位的重大调整,标志着DeepSeek从单一聊天模型向任务型智能体演进,是“意义重大的进化”而非简单版本号增加x。这种观点分歧也反映在用户体验上:一些人关注模型回答质量整体提升有限,另一些人则对其在工具使用、代码执行上的实用效率提升印象深刻。可以说,DeepSeek-V3.1的综合能力虽然只是稳步提升,但其结构与用途的改变为未来AI代理奠定了基础。
AAI
生态系统与行业影响:开放战略与最新LLM竞争比较
开放生态的快速跟进: DeepSeek-V3.1延续了该团队推崇的完全开源策略。模型权重(包括基础版和指令微调版)已在发布时同步开放在 Hugging Face 和 ModelScope 平台,并采用MIT许可,允许商业使用和再开发。这一举措为学术和工业界提供了宝贵的超大模型资源。一些AI厂商和开发者在模型发布后迅速做出响应,构建起围绕V3.1的生态支持:Hugging Face上短短几天内就出现了十余种V3.1的量化模型(包括INT8、INT4等)供低端硬件运行router。据报道,英特尔的开发者第一时间推出了基于Intel硬件优化的INT4量化版本(利用其Labs的高效Transformer实现),将3710亿激活参数的模型压缩到可在多路至强CPU上运行router。高性能推理引擎vLLM也已支持DeepSeek-V3.1的推理模式切换解析,使用户在本地部署时能方便地利用<think>标签区分模型输出的“思考内容”和最终答案x。
DeepSeek-V3.1 Usage Guide for vLLM
开源项目SGLang则发布了结合LangChain的工具调用+思考标记解析器,方便开发者构建复杂Agent流程reddit。同时,给出了性能的测试结果(如下图) huggingface。
SGLang tested on 8*H20 (VRAM 96GB) with input/output length = 1000/1000, qps=64, max_concurrency=64, num_prompt=128
此外,多个云端AI服务宣布提供V3.1推理:如Chutes.ai上线了V3.1 API并公布延迟统计,Baseten等平台将其纳入延迟排行榜以供对比reddit。HuggingFace社区统计显示,V3.1发布后下载量迅速攀升,过去一月模型下载次数接近20万,成为最受欢迎的大模型之一huggingface。这种生态的快速响应,一方面证明了V3.1在技术社区的关注度和影响力,另一方面也体现出开源模型的活力——不同于封闭模型只能由官方单一渠道提供服务,开源模型可以在极短时间内被各路团队改造适配,形成百花齐放的应用局面。
与最新封闭模型的比较: DeepSeek-V3.1的发布,正值行业顶尖封闭模型亦加速迭代的时期。OpenAI于2025年中推出了下一代模型GPT-5,据报道参数规模突破1万亿大关toolstac,并提供了专门优化推理的“GPT-5 Thinking”版本。Anthropic则发布了Claude 4(代号Opus系列),声称在推理深度上逼近人类专家水平。与这些产品相比,DeepSeek-V3.1在性能上尚有差距但性价比极高。例如,媒体报道称V3.1在知名编码测试Aider上略胜Claude Opus 4(71.6%对比71.2%,在统计误差范围内)toolstac,而在某些逻辑推理题上比GPT-5稍逊一筹decoder。然而在使用成本上,DeepSeek体现出巨大的优势:据测算,完成同样一个复杂编码任务,调用DeepSeek API约花费$1左右,而使用GPT-4/5可能高达$70(考虑到长上下文和多轮提示的计费)toolstac。更直观地,对比各模型API标价:DeepSeek-V3.1输出Token价格约$1.68/百万**,而OpenAI GPT-5哪怕经过降价仍要$10/百万,Anthropic Claude 4最高甚至$75/百万。在长上下文场景下,DeepSeek更是几乎免费:其128K上下文模型可处理长文档而不会像Claude等对超长Prompt收取高额费用(具体比较参考下表)。因此,对于看重成本或需要本地私有部署的企业,DeepSeek-V3.1提供了一个可行的替代方案(参考下表)。此外,DeepSeek作为中国开源战略的一部分,体现了与美国公司不同的发展路径:通过开源和低价迅速获取市场。正如有媒体评论:“中国公司如DeepSeek、阿里等通过免费开放强大模型来加速AI应用,与西方依赖封闭高价模式形成直接挑战”。V3.1的推出紧随GPT-5和Claude 4发布,仅隔数周即上线开源等效方案,被视为中国科技界在AI竞赛中的一次战略反击toolstac。这种开放策略也获得研究界欢迎,《自然》杂志报道称全球科研人员正在拥抱DeepSeek这类廉价开放模型,用于探索高端AI应用nature。可以预见,在未来的大模型竞争中,DeepSeek-V3.1与后续版本(如正在研发的R2推理模型)将继续扮演“鲶鱼”*角色,倒逼封闭巨头降低价格、部分开放,推动整个行业朝更透明、普惠的方向发展toolstac。与其他模型,具体的比较参考如下表:
性能(上下文与推理模式)
模型 | 上下文长度 | 推理/思考模式 | 关键特性摘要 |
---|---|---|---|
OpenAI GPT-5 | 最高 400K(API 页面标注) | 提供 GPT-5 Thinking 深度推理路径 | 统一系统+路由,强调代码与“agentic”任务能力。 |
Anthropic Claude Sonnet 4 | 1M(公测) | “混合”模式:极速 / 深思 | 支持超长上下文;API、Bedrock、Vertex 提供。 |
Anthropic Claude Opus 4 | 官方未列 1M(标准价分 ≤200K 与 >200K 档) | 混合推理 | 面向复杂任务的旗舰模型。 |
DeepSeek-V3.1 | 128K | 同一权重支持思考/非思考两种模板;工具调用限非思考模式 | 开源权重(MIT),支持 ToolCall/Code-Agent/Search-Agent。 |
Meta Llama 3.1(8B/70B/405B*) | 128K | — | 多语言、工具使用;开源权重(8B/70B)。 |
Qwen 2.5(72B 等) | 131,072 | — | 官方文档标注长上下文;多数型号开源权重。 |
Mistral Mixtral 8×22B(开源) | ~65K(实现依赖) | — | 稀疏 MoE;社区/自托管常见。 |
OpenAI GPT-OSS(120B/20B,开权重) | 131,072 | 可变推理力度(low/med/high) | Apache-2.0;面向本地/私有部署与工具用。 |
价格(API 标价为主;开源权重列“自托管/按算力计”)
模型 / 提供方 | 输入($/百万Tok) | 输出($/百万Tok) | 备注 |
---|---|---|---|
OpenAI GPT-5(API) | 1.25 | 10 | 开发者页显示 400K 上下文;企业可走 Azure。 |
Anthropic Claude Sonnet 4 | 3(>200K 为 6) | 15(>200K 为 22.5) | 同时支持缓存/批处理降本。 |
Anthropic Claude Opus 4 | 15 | 75 | 面向高强度推理/编码。 |
DeepSeek-V3.1(API) | 0.56(cache miss;命中 0.07) | 1.68 | 官方已公告 9/5 起新价。 |
Qwen-Plus(阿里云 Model Studio) | 0.4 | 1.2 | 商业托管价;开源 Qwen2.5 自托管按算力计。 |
Llama 3.1(开源权重) | — | — | 自托管/云市场(Bedrock/Vertex)各有计费。 |
Mistral(开源系列,如 Mixtral 8×22B) | — | — | 官方/第三方托管或自建,按平台计费。 |
OpenAI GPT-OSS(开权重) | — | — | 免费获取权重,运行成本自担。 |
生态(平台与集成)
模型 | 官方/云平台生态 | 工具/功能要点 |
---|---|---|
GPT-5 | OpenAI API;Azure AI Foundry GA | 结构化输出、工具调用、面向 agent 的路由/推理。 |
Claude 4(Opus / Sonnet) | Anthropic API、AWS Bedrock、Google Vertex AI | 混合推理、Prompt 缓存与批处理。 |
DeepSeek-V3.1 | DeepSeek API;开源权重(HF/ModelScope);提供与 Anthropic API 兼容指南 | Function Calling(非思考)、JSON/Agent 模板。 |
Llama 3.1 | AWS Bedrock、Google Vertex AI、开源社区 | 多语言、工具使用;广泛 SDK/推理框架支持。 |
Qwen 2.5 | 阿里云 Model Studio 托管;开源社区 | 长上下文、主流推理后端适配。 阿里云 |
Mistral(开源系列) | Mistral API、自托管文档完备 | 代码/语音/推理子系列,开放许可证。 |
GPT-OSS(开权重) | 开源权重;兼容 OpenAI Responses API;Vertex AI 提供托管 | 可调推理力度、面向本地/私域。 |
部署(自托管可行性与硬件提示)
模型 | 自托管 | 硬件/环境提示 | 说明 |
---|---|---|---|
GPT-5 | 否(API/云) | — | OpenAI/ Azure 托管为主。 |
Claude 4 | 否(API/云) | — | Anthropic/Bedrock/Vertex。 |
DeepSeek-V3.1 | 是(MIT) | 671B 总参、激活 37B;官方提供本地运行说明 | 同一权重支持思考/非思考模板。 |
Llama 3.1(8B/70B) | 是 | 广泛推理框架与云镜像;405B 多走托管 | 128K 上下文。 |
Qwen 2.5(多型) | 是 | 多数型号开源可自建;72B/3B 许可例外 | 官方长上下文示例。 |
Mistral Mixtral 8×22B | 是 | 社区实践常见;FP16 全精度显存需求较高 | 官方总览与社区部署资料。 |
GPT-OSS(120B/20B) | 是(Apache-2.0) | 20B 可在 ~16GB 级内存设备运行;120B 单卡 80GB 可用 | 模型卡明确内存/量化方案。 |
合规(许可与数据/隐私)
模型 | 许可 / 商用限制 | API 数据使用(隐私)要点 |
---|---|---|
GPT-5 | 专有/闭源 | OpenAI:默认不使用企业 API 数据训练;可选择性自愿“开启”共享。Azure 具企业合规与数据区。 |
Claude 4 | 专有/闭源 | Anthropic:默认不使用商用产品(含 API)输入/输出训练,除非明确选择加入。 |
DeepSeek-V3.1 | MIT(权重开放) | 隐私政策载明保留/处理个人数据以改进服务并符合法规;涉及违法会依法配合。建议企业评估数据驻留与合规。 |
Llama 3.1(8B/70B) | Llama Community License(可商用;700M MAU门槛与“Built with Llama”归属要求) | 自托管为主,数据控制在企业侧。 |
Qwen 2.5 | Apache-2.0(除 3B/72B 特定许可) | 自托管为主。 |
Mistral(开源系列) | Apache-2.0 | 自托管/平台托管;遵循各平台数据政策。 |
GPT-OSS | Apache-2.0(开权重) | 不开启训练数据上传;运行/存储成本自理;可离线部署。 |
小结与解读
-
性价比:就 API 标价而言,DeepSeek-V3.1 的输出端 $1.68/百万(9/5 起)在主流厂商中最低量级;对比 GPT-5 $10、Claude Sonnet 4 $15 输出价,适合大规模推理与长对话场景控本。与此同时,开源权重(DeepSeek/Llama/Qwen/Mistral/GPT-OSS)可进一步通过自托管把“价格”转化为算力成本。deepseek
-
开源生态:2025 年新增 OpenAI GPT-OSS(Apache-2.0) 与 DeepSeek-V3.1(MIT),使高推理模型在本地/私域的可用性大幅提升;Llama/Qwen/Mistral 仍是工程落地最广的开源三极。
-
合规:选择闭源 API(OpenAI/Anthropic)时,默认不用于训练的政策对企业隐私友好;使用我国厂商(如 DeepSeek)需关注数据驻留与跨境合规;采用 Llama 需注意 MAU 门槛与标识要求。OpenAIAnthropicLlama
深度解读与展望:迈向实用智能代理的关键一步
作为2025年后推出的开源旗舰模型,DeepSeek-V3.1在技术上和产业上都具有重要意义。从技术层面看,V3.1证明了混合推理范式的可行性:通过训练和架构设计,一个LLM可以同时胜任对话问答和复杂推理任务,而无需像过去那样拆分为不同模型(基础对话模型+推理专家模型)。这种“一模多能”的能力对大模型应用具有极大吸引力——既降低部署和维护成本,又方便在同一会话中根据需求动态调整模型行为(快速回答或深度思考)。DeepSeek的方法也为业界探索内置Chain-of-Thought提供了参考,即通过标记或模板,在训练中明确区分模型的推理过程和最终答案,让模型学会控制自身“思维”的开关。这一思路可能催生新的模型训练范式,使未来的LLM能够按需自我解释,在人类监控下实现更可靠的推理。另一方面,DeepSeek-V3.1验证了超长上下文和低精度训练在超大模型上的结合应用,展现出前沿工程能力:128K上下文处理、多兆亿Token训练、FP8混合精度,这些都代表了当前LLM研发的最高水平。特别是FP8的成功实践,对大模型加速硬件和软件栈设计都有指导意义arxiv。
从应用层面看,DeepSeek-V3.1进一步拉近了通用LLM与智能体(Agent)的距离。它在代码执行、网页搜索、工具调用等方面的增强,使模型初步具备了“感知-决策-行动”的闭环能力(通过阅读环境信息->思考->调用工具->反馈),这正是朝AGI代理迈进的必要步骤。虽然当前思考模式下不能直接用工具,但随着未来版本完善,这一障碍消除后,DeepSeek很可能成为强大的自主AI助手——既能进行长程推理,又可实时与外部世界交互。社区对于V3.1在Agent任务中的高效率反应热烈,不少开发者已经开始将其融入实际工作流程,如利用其代码能力进行自动化编程助手,或用搜索Agent批量整理分析信息。以性价比而言,DeepSeek-V3.1几乎重新定义了高端模型的成本结构:以前只有付费使用GPT-4/5才能达到的性能,现在研究人员下载一个开源模型即可在本地取得相近效果。这无疑将极大促进AI在各行业的落地创新。
总结而言,DeepSeek-V3.1作为2025年后的最新开源LLM成果,在技术创新和应用导向上树立了标杆。它证明了混合推理+长上下文+工具接入这一组合的强大潜力,显著提高了模型在复杂任务和代理应用中的实用性。同时,凭借开源和低成本优势,它对商业闭源模型发起了有力冲击,推动行业走向更开放、更普惠的格局。对于专业人士来说,V3.1及其背后的技术(如MoE负载均衡、MTP目标、FP8训练、CoT蒸馏)值得深入研究,这些进展可能为下一代LLM提供宝贵经验。可以预见,未来的大模型将越来越多地具备DeepSeek-V3.1所展示的特性:一专多能的混合模式、高效利用超长上下文、无缝调用工具以及易于部署的开放策略。在这条通往通用人工智能的道路上,DeepSeek-V3.1无疑是一个里程碑式的关键节点。