深度求索(DeepSeek)推出的新人工智能模型针对国产芯片进行了优化,且定价低于OpenAI。图片来源:Photo illustration by Cheng Xin—Getty Images
中国人工智能初创公司深度求索(DeepSeek)在今年1月凭借一款名为R1的人工智能模型震惊世界,该模型可与OpenAI及Anthropic的顶级大语言模型(LLM)相抗衡。其研发成本仅为其他同类模型的一小部分,使用的英伟达(Nvidia)芯片数量远少于竞品,且以免费形式发布。如今,在OpenAI最新模型GPT-5发布仅两周后,深度求索再次推出其旗舰V3模型的更新版本——专家称该版本在部分基准测试中的表现可与GPT-5相媲美,且在定价上颇具策略性,低于GPT-5。
深度求索的新模型V3.1是在微信某用户群及Hugging Face平台上悄然发布的。此次发布同时触及当前人工智能领域的多个核心议题:深度求索是中国在不依赖外国技术的前提下,推进先进人工智能系统研发、部署与管控这一整体战略的关键一环。(事实上,深度求索此次推出的新版V3模型专门针对国产芯片进行了优化,以实现卓越性能。)
尽管美国企业对深度求索的模型仍持观望态度,但这些模型已在中国广泛应用,并在全球其他地区逐渐普及,甚至部分美国企业已基于深度求索的R1推理模型开展应用程序开发工作。
中国在人工智能领域的布局远不止深度求索一家:国内还涌现出阿里巴巴的通义千问(Qwen)、月之暗面(Moonshot AI)的Kimi、百度的文心一言(Ernie)等模型。不过,深度求索选择在OpenAI的GPT-5推出后不久发布新版本——后者的推出未能满足行业观察人士的较高预期——凸显出中国科技界力求跟上甚至超越美国顶级实验室的决心。
一、OpenAI对中国与深度求索感到担忧
深度求索的举措无疑让美国实验室倍感压力。在近期与记者的晚宴上,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)表示,来自深度求索等中国开源模型的竞争日益激烈,这一现实状况影响了OpenAI两周前发布自有开源权重模型的决策。
“显而易见,倘若我们不采取相应行动,未来全球技术生态或将主要依托中国开源模型构建,”奥尔特曼表示,“这无疑是我们决策时考虑的因素之一,虽非唯一决定要素,但其影响却举足轻重。”
此外,上周美国政府发放许可证,批准英伟达和超微半导体(AMD)向中国出口专用人工智能芯片(包括英伟达的H20芯片),但前提是两家公司同意将相关销售收入的15%上缴美国政府。在美国商务部部长霍华德·卢特尼克(Howard Lutnick)7月15日接受美国消费者新闻与商业频道(CNBC)采访时称“我们不会向中国出售最先进的芯片,也不会出售技术水平次之或处于第三梯队的产品”后,中国政府随即采取反制措施,着手限制英伟达芯片的采购。
通过针对国产芯片进行模型优化,深度求索既展现出应对美国出口管制的韧性,也表明其减少对英伟达依赖的决心。该公司在微信公众号文章中指出,新模型格式已针对“即将发布的下一代国产芯片”进行优化。
在同一场晚宴上,奥尔特曼警告称,美国可能低估了中国在人工智能领域取得的进展,并表示单靠出口管制或许并非可靠的解决方案。
虽未达成质的飞跃,却仍是具有突破性的渐进式进展
从技术层面看,深度求索新模型的亮点在于其构建方式,其中部分技术突破对普通用户而言并不直观。但对开发者而言,这些创新使得V3.1相较于众多封闭且定价高昂的竞品模型更具成本优势与通用性。
例如,V3.1规模庞大,参数数量达6850亿,与众多顶尖“前沿”模型处于同一量级。但其采用的“混合专家”架构意味着,在响应任何查询时,仅需激活模型的一小部分,从而为开发者降低计算成本。此外,与早期深度求索模型——将“可基于预训练数据即时回答的任务”与“需逐步推理的任务”分开处理——不同的是,V3.1在单一系统中同时实现了快速应答功能与推理功能。
GPT-5、Anthropic及谷歌的最新模型也具备类似能力,但目前能做到这一点的开源权重模型仍屈指可数。科技分析师、TechTalks博客创始人本·迪克森(Ben Dickson)向《财富》杂志表示,V3.1的混合架构“是目前为止最大的亮点”。
其他人指出,尽管这款新模型不像今年1月震惊世界的R1模型(由初代V3模型精炼而成的推理模型)那样具有突破性,但全新的V3.1版本仍然令人瞩目。人工智能开发者平台Lightning AI的创始人兼首席执行官威廉·法尔肯(William Falcon)称:“它们能持续实现具有实质意义的改进,这确实令人印象深刻。”不过他也补充道,倘若OpenAI的开源模型“开始出现明显落后”,预计该公司会做出回应,并指出,深度求索的模型对开发者而言在投入生产应用时难度更大,而OpenAI的版本部署起来则相对更为便捷。
尽管技术细节繁杂,但深度求索此次新品发布凸显了一个事实——人工智能正日益被视为中美之间暗流涌动的技术竞赛的一部分。考虑到这一点,倘若中国企业能以其声称的一小部分成本研发出更为卓越的人工智能模型,那么美国竞争对手确实有理由担忧自身能否保持领先地位。
二、AI大模型学习路线
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓