LLMs:LLM一天,人间一年—2024年度大模型技术三+四大趋势梳理(数据/算法/算力+RAG/Agent/Text2SQQL/混合部署)与2025年大模型技术趋势(强大推理/多模态)展望和探讨
导读:大家好,我是“一个处女座的程序猿”,博主遵循每年的年度惯例,本次博主依旧将深入探讨2024年LLM领域的发展动态。在这一年中,LLM技术以前所未有的速度迭代,开源社区的蓬勃发展、技术的持续突破,以及在各行各业的广泛应用,共同绘制了一幅波澜壮阔的画卷。进一步地,我们将对比分析美国与中国在LLM领域的发展历程和科技竞争格局。2024年,两国在人工智能领域的竞争愈发激烈,美国侧重于架构创新和硬件算力的堆砌,而中国则更注重算法策略的柔和与工程化应用。在这一过程中,不仅见证了技术的飞速发展,也关注到LLM发展中面临的挑战,如数据安全、模型可解释性以及伦理问题。对这些挑战的深入剖析,将有助于我们更好地应对和解决。展望2025年,LLM技术将继续朝着更大、更强、更智能的方向发展,并在更多领域发挥关键作用。本文将预测未来技术的发展趋势,并探讨多模态、低成本和端侧智能等发展重点。同时,博主将从开源生态、工具链演进、算力提升和混合部署方案等方面,为企业和技术开发者提供有益的参考。
具体地:
第一章节,博主基于的Artificial Analysis发布的年度报告,深度分析了一场全方位的LLM大比拼。通过对智力、速度、价格等关键指标的对比分析,以及人工智能分析指数(AAII)的量化评估,揭示了中美两国在LLM领域的竞争态势。本章还重点剖析了GPT、LLaMA和DeepSeek三大现象级模型的技术路径、开源策略及其对行业的影响,让大家一览LLM领域的竞争格局和技术发展趋势。
第二章节,博主聚焦于2024年LLM开源生态的繁荣。以Hugging Face为代表的开源平台推动了模型、数据集和工具的广泛传播,降低了开发门槛。本章详细描述了开源模型在论坛上的热情以及LLM工具的快速发展,探讨了这些进展如何推动LLM技术的普及和应用。
第三章节,博主探讨了LLM技术在数据、算法和算力三个方面的协同发展。从合成数据、强化学习、模型量化、小语言模型、大窗口技术,到智能算力的激增和能效优化,本章深入分析了LLM技术发展的关键要素及其影响,并对未来发展趋势进行了展望。
第四章节,博主总结了2024年LLM的应用战略,包括搜索增强生成(RAG)、智能体(Agent)、Text2SQL以及混合部署的四大大方向。详细分析了这些技术在各自领域的进展、挑战和解决方案,为大家展示了LLM在不同应用场景中的潜力。
第五章节,博主对2024年LLM技术的发展进行了回顾,并展望了2025年的发展重点。2025年,看中国,最能做的两件事是什么?一个是卷成本(推理),一个是卷应用(工程化)。
当然,最后,博主希望大家能够紧跟时代步伐,共同见证LLM技术的蓬勃发展。
愿大家,同博主一道:
年复一年,
年赴一年,
年富一年!
#################20250123更新DeepSeek-R1相关的技术##########################
#################20250210更新DeepSeek-R1相关的报道##########################
目录
AGI:走向通用人工智能的【哲学】之现实世界的虚拟与真实——带你回看1998年的经典影片《The Truman Show》感悟“什么是真实”
DayDayUp:2020,再见了,不平凡的一年,让我懂得了珍惜,让我明白了越努力越幸运
DayDayUp:2021,再见了,无论是躺平还是内卷—愿大家改变不可接受的,接受不可改变的—心若有向往,何惧道阻且长
DayDayUp:7月25日,如何打造技术品牌影响力?顶级大咖独家传授—阿里云乘风者计划专家博主&CSDN TOP1“一个处女座程序猿”《我是如何通过写作成为百万粉丝博主的?》演讲全文回顾
成为顶级博主的秘诀是什么?《乘风者周刊》专访“处女座程序猿”牛亚运
第一本书:侧重机器学习实战,耗时5年,原稿70万字,出稿预估35万字
《数据驱动:机器学习实战之道》新书内容大曝光:欢迎各路大神、网友、粉丝前来围观—各个章节的概要如下所示
第二本书:侧重大模型理论与实战,耗时3年,原稿68万字,出稿预估38万字
《语言之舞:大语言模型代码实战与部署应用》新书内容大曝光:欢迎各路大神、网友、粉丝前来围观—各个章节的概要如下所示
2023年~2024年,博主受邀参加国内AI社区一系列活动回顾
1.1.2、人工智能分析指数:推理模型/非推理模型、专有模型/开放权重模型/商业用途受限的开放权重模型
1.2、美国-技术制胜(侧重架构创新和堆硬件上算力),中国-人定胜天(侧重柔和算法策略和工程化应用)
1.2.1、国家分布对比:截至2025年初,世界上不同国家代表性LLM的分布
发展历程对比:美国四大人工智能实验室(OpenAI、Anthropic、Google和Meta)近三年的前沿LLM发展历程对比
发展历程对比:中国两大人工智能实验室(Alibaba、DeepSeek)近三年的前沿LLM发展历程对比
科技竞争格局:中国大型科技公司(阿里巴巴、百度、字节跳动、华为和腾讯)前沿AI模型竞争格局
1.2.5、三大现象级大模型对比:GPT掀开大模型应用浪潮(两阶段训练)→LLaMA开源为王(侧重预训练)→DeepSeek性价比分水岭(侧重后训练)
3.2.1、预训练(PT)的核心价值与发展方向:LLM中的PT走向结束 OR 继续坚持?
3.2.4、基于强化学习的LLM技术演进与影响:更多精力侧重“思考”而非“背题”
LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略
2025年1月22日,网友在职业社交平台Blind上通过对比Llama 4批露了Meta的GenAI部门的”恐慌“
2025年1月22日,Yann LeCun提出开源模型正在超越闭源模型
2025年1月23日,Zuckerberg(Facebook CEO)大赞DeepSeek的竞争力
2025年1月?日,Demis Hassabis(DeepMind CEO)大赞DeepSeek的工程化
2025年1月25日,AMD正式集成DeepSeek-V3模型
2025年1月25日,Elon Musk、Deedy等质疑DeepSeek底层设施中真实GPU个数
2025年1月28日,CBS晚间新闻的评论员把这一影响惊呼为“斯普特尼克时刻”(sputnik moment)到来
3.2.6、上下文窗口长度的扩展:玩家没有个128K,吹牛都难以让人信服
3.3.3、英伟达Hopper、Blackwell和AMD加速器硬件规格对比
4.1.2、RAG的四大查询场景及其解决方案:显性事实查询、隐性事实查询、可解释的推理查询、隐藏的推理查询
4.3、Text2SQL(侧重基于关系型数据库):自然语言到结构化数据的桥梁
4.3.1、基于LLM技术的六大Text2SQL方案:DIN-SQL、DAIL-SQL、C3、MAC-SQL、MCS-SQL、CHESS
4.4、大模型混合部署(开源【优化策略】+闭源【域内数据】):端-云协同新范式
5.1、以OpenAI的O系列和DeepSeek-R1系列为代表性技术描述趋势预测
推荐历年还不错的总结系列文章
AGI:走向通用人工智能的【哲学】之现实世界的虚拟与真实——带你回看1998年的经典影片《The Truman Show》感悟“什么是真实”
AGI:走向通用人工智能的【哲学】之现实世界的虚拟与真实——带你回看1998年的经典影片《The Truman Show》感悟“什么是真实”_the truman show对真实的理解-CSDN博客
DayDayUp:2020,再见了,不平凡的一年,让我懂得了珍惜,让我明白了越努力越幸运
DayDayUp:2020,再见了,不平凡的一年,让我懂得了珍惜,让我明白了越努力越幸运_因为相信所以看见 春茗聚会通知-CSDN博客
DayDayUp:2021,再见了,无论是躺平还是内卷—愿大家改变不可接受的,接受不可改变的—心若有向往,何惧道阻且长
DayDayUp:2021,再见了,无论是躺平还是内卷—愿大家改变不可接受的,接受不可改变的—心若有向往,何惧道阻且长_keep loving keep living什么意思-CSDN博客
DayDayUp:7月25日,如何打造技术品牌影响力?顶级大咖独家传授—阿里云乘风者计划专家博主&CSDN TOP1“一个处女座程序猿”《我是如何通过写作成为百万粉丝博主的?》演讲全文回顾
成为顶级博主的秘诀是什么?《乘风者周刊》专访“处女座程序猿”牛亚运
成为顶级博主的秘诀是什么?《乘风者周刊》专访“处女座程序猿”牛亚运-阿里云开发者社区
2025年,博主2本新书即将出版啦
在写2024年度总结之际,分享一下博主2025年即将出版的2本新书,希望把大模型和机器学习技术及其实战案例的多年积累,以及大模型最前沿技术能够分享给大家!
第一本书:侧重机器学习实战,耗时5年,原稿70万字,出稿预估35万字
《数据驱动:机器学习实战之道》新书内容大曝光:欢迎各路大神、网友、粉丝前来围观—各个章节的概要如下所示
第二本书:侧重大模型理论与实战,耗时3年,原稿68万字,出稿预估38万字
《语言之舞:大语言模型代码实战与部署应用》新书内容大曝光:欢迎各路大神、网友、粉丝前来围观—各个章节的概要如下所示
2023年~2024年,博主受邀参加国内AI社区一系列活动回顾
CSDN论坛、AI机器人论坛、阿里开发者社区等等
阿里达摩院
一、LLM概述
1.1、大模型各种维度对比
1.1.1、智力、速度、价格对比
上图将多个LLM在三个关键指标上的表现进行了比较:智力(Intelligence)、速度(Speed)和价格(Price),直观地展现了不同LLM的性能差异,方便用户根据自身需求选择合适的模型。
>> 智力:使用人工智能分析智力指数(Artificial Analysis Intelligence Index,AAII)衡量,数值越高表示模型越“聪明”。例如,图中显示03-mini模型的智力得分最高,为63分,DeepSeek R1模型次之,而Claude3.5 Haiku模型的得分最低,仅为24分。
>> 速度:以每秒生成的token数衡量,数值越高表示模型处理速度越快。例如,01-mini模型的速度最快,每秒生成187个token,而DeepSeek R1模型的速度最慢,每秒仅生成27个token。
>> 价格:以每百万token的美元价格衡量,数值越低表示模型成本越低。例如,Gemini 2.0 Flash模型的价格最低,仅为0.2美元/百万token,而01模型的价格最高,高达26.3美元/百万token。
注意:图中仅展示了部分模型,原报告中,且每个指标的具体计算方法和单位需要参考数据来源的详细说明。
1.1.2、人工智能分析指数:推理模型/非推理模型、专有模型/开放权重模型/商业用途受限的开放权重模型
AAII涵盖多个智能维度的综合指标——比较模型智能程度的最简单方式。第 2 版于 2025 年 2 月发布,包括:MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME, MATH-500。该指数综合考量了推理、知识、数学和编码等七个维度的能力,对不同模型的智能水平进行了排名。
上图展示了不同LLM的“智能程度”,对多个模型进行了评估,结果以柱状图的形式呈现。图中显示,部分模型的得分是估计值,最终结果需等待独立评估。不同模型的得分差异较大,排名前列的模型得分显著高于其他模型,这反映了不同模型在综合智能能力上的差异。
上图根据模型是否侧重推理能力将其分为两类:推理模型(Reasoning Model)和非推理模型(Non-Reasoning Model)。直观地显示了不同模型的得分,其中推理模型的得分普遍高于非推理模型。得分最高的几个模型均属于推理模型,这说明在当前的评估体系下,更强调推理能力的模型在综合智能方面表现更出色。
上图根据模型权重是否公开以及是否允许商业使用将其分为三类:专有模型(Proprietary)、开放权重模型(Open Weights)和商业用途受限的开放权重模型(Open Weights (Commercial Use Restricted))。从图中可以看出,专有模型的得分普遍高于开放权重模型,而商业用途受限的开放权重模型的得分则介于两者之间。 这表明,虽然开放权重模型在促进人工智能研究和发展方面具有重要意义,但在整体智能水平上可能仍落后于专有模型。
1.2、美国-技术制胜(侧重架构创新和堆硬件上算力),中国-人定胜天(侧重柔和算法策略和工程化应用)
在探讨中美之间AI格局之前,先分享一下李开复老师,在2025年初,曾说过的一段类非常有意思的内容:
在国内的AI领域,有一种心态就是,我要跟人家用同样的方法,用同样的资源,去追求那个超级智能AGI。但如果你只有这一种方法,那早点放弃是对的。你看,OpenAI训练GPT-4的时候花了1亿美金,如果GPT-5要花10亿,那GPT-6可能就得花100亿,这数字太吓人了。在中国,哪家创业公司能融到这么多钱?大公司估计也不愿意砸这么多钱进去。美国那些有钱人就不一样,不管三年内做出AGI的概率有多低,他们都愿意砸钱试试,很少有公司愿意这么大手笔去赌一个成功率不高的事情。
虽然AGI这事儿早晚能成,但三年内搞定太难了。要是三年做不成,你可能就得烧掉千亿万亿的钱,那就真成军备竞赛了。美国可能也玩不起,但中国可以换种思路。就像别人登月成功了,第二个上去的就会容易些。我们不是非得要做第一个达到下一个高度的,而是在别人的基础上,结合外部学术论文和模型,自己再做一些创新。我们的目标是要做出世界一流的模型,可能比第一个出来的晚个5到6个月,但我们要争取成本更低,速度更快,可用性更高。
在过去,中国的很多公司习惯了别人做技术创新,咱们习惯性地进行follow,拿过来做应用变现,然后等着摩尔定律从天而降,在家里躺18个月就有更好的硬件和软件。但现在,我们也希望中国能逐渐成为技术创新的贡献者,而不仅仅是搭便车。现在中国的产业结构正在调整,以前赚钱靠的是时代的运气,现在这招不灵了,大家开始真正去搞创新了。
1.2.1、国家分布对比:截至2025年初,世界上不同国家代表性LLM的分布
上柱状图展示了截至2025年初,来自不同国家/地区领先的LLM的AAII。 数值越高,表示模型的智力水平越高。 可以看出,美国模型整体上占据领先地位,但中国的模型紧随其后,已经成为强有力的竞争者,差距已经显著缩小。 其他国家(法国、加拿大、以色列)的模型智力水平相对较低。
注意:需要注意的是,该图仅选取了部分领先模型,并非所有模型都包含在内,部分模型的指数是基于Artificial Intelligence公司声明和可比结果估算的,尚未经过独立基准测试。
1.2.2、两大超巨:美国和中国
发展历程对比:近三年的前沿LLM发展历程对比
图表显示,最初OpenAI的模型(GPT-3.5 Turbo, GPT-4, GPT-4 Turbo)领先,但中国厂商(阿里巴巴和DeepSeek)的模型在2024年快速发展,逐渐缩小了与美国模型的差距。到2024年年末,中国厂商的模型(例如DeepSeek的R1)已经接近甚至达到了OpenAI o1级别的智力水平。 这表明中国在LLM领域的研发能力显著提升,并且在推理模型方面也取得了快速进展,部分模型已经与美国顶级实验室的模型不相上下。 总的来说,该图展现了中美两国在LLM领域竞争的激烈态势,以及中国厂商在追赶和超越方面的显著进步。
分类对比:最新的LLM推理能力、非推理能力
上图对比了2025年初中国主要人工智能实验室开发的LLM的AAII。 图中将模型分为两类:具有推理能力的模型(红色柱状图)和不具备推理能力的模型(粉色柱状图),并与美国最高智力水平的推理模型(深蓝色柱状图)和非推理模型(浅蓝色柱状图)进行了比较。 数值越高表示模型性能越好。
图表显示,一些中国实验室的模型已经达到了或声称达到了前沿水平的智力,其中七个模型具备推理能力。 虽然整体上,美国模型的智力水平仍然领先,但中国模型在智力水平上已经显著接近,尤其是在推理能力方面,部分中国模型的性能与美国顶级推理模型的差距已经缩小。总的来说,该图展现了中国在LLM领域,特别是在推理能力方面的快速发展和进步。
1.2.3、美国
发展历程对比:美国四大人工智能实验室(OpenAI、Anthropic、Google和Meta)近三年的前沿LLM发展历程对比
上图展示了2022年第四季度至2025年第一季度期间,美国四大主要人工智能实验室(OpenAI、Anthropic、Google和Meta)发布的前沿LLM的智力水平发展历程。 图表显示,OpenAI的GPT-3.5 Turbo率先发布,随后GPT-4和GPT-4 Turbo保持领先地位。 然而,其他实验室的模型,纷纷急于追赶OpenAI。特别是Google的Gemini系列和Meta的Llama系列,迅速发展,并在2024年期间逐渐追赶OpenAI的模型。 例如,Gemini 2.0 Flash的性能甚至超过了Claude 3.5 Sonnet和GPT-4o。 此外,到2024年末,OpenAI的o3模型代表了智力水平的显著提升,超越了GPT-4,这与推理模型的出现、数据质量的提高以及强化学习技术的进步有关。 总而言之,该图清晰地展现了美国主要人工智能实验室在LLM领域的竞争态势,以及模型性能在短时间内的快速提升。
1.2.4、中国
发展历程对比:中国两大人工智能实验室(Alibaba、DeepSeek)近三年的前沿LLM发展历程对比
上图追踪了2022年第四季度至2025年第一季度期间,中国领先的人工智能实验室(DeepSeek和阿里巴巴)发布的LLM的智力水平发展历程。
图表显示,虽然起步较晚,但中国AI实验室在2024年迅速追赶了美国前沿模型的智力水平。 DeepSeek和阿里巴巴持续发布新模型,并在2024年末DeepSeek超越阿里巴巴,取得领先地位,其R1模型在性能上与OpenAI的o1模型相当。 此外,中国AI实验室积极发布开放权重模型,并在2025年初大量发布前沿推理模型,展现出在模型研发速度和能力上的显著进步,不再落后于国际水平。 总而言之,该图表明中国在LLM领域取得了令人瞩目的成就,并在未来发展中展现出强劲的竞争力。
科技竞争格局:中国大型科技公司(阿里巴巴、百度、字节跳动、华为和腾讯)前沿AI模型竞争格局
上图表分析了中国主要大型科技公司(阿里巴巴、百度、字节跳动、华为和腾讯)在人工智能领域,特别是LLM方面的竞争态势。 图表从公司描述、AI战略(包括发布策略、模型类型和云服务集成)、模型智力水平(区分推理和非推理模型)、多模态模型能力(文本转语音、语音转文本、图像生成、视频生成和3D生成)以及公司估值等多个维度进行了比较。
图表显示,这些公司都积极参与AI竞赛,并发布了多种类型的前沿AI模型,包括LLM以及其他模态的模型,例如图像生成和语音生成。 阿里巴巴和百度在LLM方面相对领先,并积极开放权重模型。 字节跳动侧重于开发专有模型并将其整合到其消费级平台中。 华为专注于开发特定领域的模型。腾讯则侧重于发布开放权重模型。 图表还列出了其他一些具有AI野心的公司,例如昆仑科技、360安全、科大讯飞、美团和小米,这些公司也参与了前沿AI模型的研发。 总而言之,该图表清晰地展现了中国大型科技公司在AI领域的竞争格局,以及它们在不同AI技术方向上的战略布局。
中国AI新锐公司对比
上图表概述了中国人工智能初创公司在LLM领域的成就,并开发了一些全球领先的开放权重模型。图表比较了MiniMax、Moonshot AI、01.AI、DeepSeek、Zhipu AI、BaiChuan和StepFun等七家公司开发的模型。 比较维度包括模型描述、推理与非推理能力、多模态能力(文本转语音、语音转文本、图像生成、视频生成和3D生成)、融资情况以及主要投资者。
图表显示,这些中国AI初创公司在AAII上取得了显著成绩,部分模型的性能与国际领先模型相当。 它们积极开发开放权重模型,并涵盖了多种模态能力。 这些公司也获得了中国大型科技公司和风险投资机构的资金支持,展现了中国AI领域蓬勃发展的态势。
该图以时间线的方式,追踪了2022年第四季度至2025年第一季度期间,OpenAI、Anthropic、Google、Mistral和Meta五大公司发布的前沿LLM的智力水平演变。 纵轴代表“人工智能分析质量指数”(Artificial Analysis Quality Index),该指数综合考量了多个语言模型智能和推理评估数据集的结果,数值越高表示模型性能越好。横轴代表模型的首次公开发布日期。
图表显示,OpenAI的GPT-3.5 Turbo率先问世,随后其他公司陆续推出各自的模型,并在2024年期间整体上追赶了OpenAI的GPT-4。 值得注意的是,到2024年末,一些模型(例如OpenAI的o1)的智力水平已经超越了GPT-4。 此外,图表还显示了基于开放权重的模型(例如Meta、Mistral和阿里巴巴的模型)在性能上显著提升,部分模型已经接近或超过了GPT-4的水平。 总的来说,该图直观地展现了LLM智力水平的快速发展和竞争格局,以及不同公司在技术发展上的差异。 部分模型的指数是基于厂商公布的评估结果进行估算的。
1.2.5、三大现象级大模型对比:GPT掀开大模型应用浪潮(两阶段训练)→LLaMA开源为王(侧重预训练)→DeepSeek性价比分水岭(侧重后训练)
核心特点 | 影响与意义 | |
OpenAI GPT系列 | >> 技术路径:以“两阶段训练”(预训练+指令微调)为核心,通过海量数据预训练构建通用能力,再通过特定任务微调实现垂直领域适配。例如,GPT-4 Turbo和GPT-4o系列均采用128k以上的长上下文窗口,支持复杂推理和多轮对话。 >> 闭源模式:后续模型均为专有(Proprietary),技术细节不公开,通过API商业化输出能力。这种模式虽保障了技术壁垒和商业利益,但也限制了社区参与和生态扩展。 | >> 行业影响:GPT系列首次证明了千亿级参数模型的可行性,推动了大模型从学术研究向产业落地的跨越,但其后来闭源策略导致行业高度依赖OpenAI的生态,形成“技术黑箱”。 >> 历史意义:GPT系列标志着大模型从实验室走向规模化应用,但其闭源模式引发了对技术垄断的担忧,间接催生了开源社区的崛起。 |
Meta LLaMA系列 | >> 开源策略:LLaMA系列以“Meta Open”为标志,逐步开放模型权重(如Llama 3.1 Instruct 405B、Llama 3.2 Vision系列),推动学术界和工业界自由迭代。 >> 预训练优化:通过参数规模(从1B到405B)和上下文窗口(从4k到128k)的扩展,提升模型通用性。例如,Llama 3.3 Instruct 70B支持128k长文本处理,适用于复杂场景。 >> 多样化适配:推出视觉增强版(如Llama 3.2 Vision)和小型化模型(如3B、1B),覆盖从边缘计算到云端的不同需求。 | >> 行业影响:LLaMA的开源模式打破了闭源垄断,催生了Hugging Face、Stability AI等社区生态,加速了模型优化与本土化适配(如中文微调版、行业专用版)。其高参数模型(如405B)则重新定义了预训练的标杆。 >> 历史意义:LLaMA证明了开源模式在大模型时代的可行性,推动了技术民主化,但过度依赖预训练规模也暴露了算力门槛高、能效比低的问题。 |
DeepSeek系列 | >> 后训练优化:通过蒸馏(Distill)、量化、架构精简等技术,在保持性能的同时大幅压缩模型规模。例如,DeepSeek R1 Distill系列将Llama 70B蒸馏为1.5B-32B版本,上下文窗口仍保持128k。 >> 高性价比路径:以“多快好省”为目标,如DeepSeek-V3和R1系列通过算法优化降低训练成本,同时支持代码生成、长文本理解等复杂任务。 >> 开放生态:采用“DeepSeek Open”策略,部分模型开源,吸引开发者共建工具链。 | >> 行业影响:DeepSeek的蒸馏和压缩技术为资源受限场景(如中小企业、边缘设备)提供了可行方案,打破了对英伟达GPU堆砌的依赖。其高能效比模型(如1.5B Distill Qwen)证明,小模型通过后训练优化也能接近大模型性能。 >> 历史意义:DeepSeek标志着大模型从“规模竞赛”转向“效率优先”,为行业提供了“轻量化突围”的新范式,尤其对发展中国家和中小团队具有普惠价值。 |
在推动大模型技术的发展过程中,普及和市场份额的占领是经济良性迭代的关键。按照美国的玩法,弄到最后,全世界都给英伟达和OpenAI打工,这个路径是不对的。若过度依赖以英伟达和OpenAI为代表的单一技术路线,可能导致全球产业链集中风险,比如硬件垄断和模型生态封闭化问题。面对有限的物质条件,我们应该发挥人的主观能动性,追求技术目标的同时,探索多样化的技术解决方案。重要的是降低实现这些解决方案的难度,而不是单一追求技术先进性或无限制地堆叠多少卡来增加计算资源。在资源有限条件下,更应倡导通过算法优化(如模型蒸馏、量化)、架构精简等技术创新降低实现门槛,而非盲目追求硬件堆砌(如GPU数量)或参数规模扩张。例如,Meta的LLaMA系列通过开源策略推动社区协作,DeepSeek则借助后训练优化实现高性能小模型(如1.5B蒸馏版),均在减少算力依赖的同时提升能效比。这种“多快好省”的路径不仅体现了技术智慧,更契合发展中国家和中小团队的实际需求,为行业提供了从“规模竞赛”转向“效率优先”的可行性方案。真正的智慧在于如何以更高效、经济的方式达成目标,大模型发展需平衡技术先进性、生态开放性与成本可控性,避免陷入单一维度的极端化竞争。
大白话梳理DeepSeek-R1是如何诞生的?
DeepSeek公司提到,Open AI的那个o1模型之所以能领先,是因为它不走寻常路。它不是把所有精力都放在模型预训练上,而是通过增加模型在推理时的思考时间,也就是计算量,来实现性能的大提升。简单来说,就像不是让小孩死记硬背,而是让他们学会思考。但是,o1是个闭源模型,大家都不清楚它具体是怎么做到的。
所以,DeepSeek决定用纯强化学习的方法来试试,让大模型在没有老师指导的情况下,自己学会推理。这就好比让小朋友直接做题,做对了就表扬,做错了就重来,这样小朋友就会不断尝试,直到做对。这就是他们后来的r1模型的前身,r1-zero模型的训练方法。但r1-zero不仅仅用了强化学习,它还结合了GPRO算法和规则化奖励。GPRO算法就像小组比赛学习,几个小朋友一起做题,谁做对了,其他人就跟着学,这样能减少50%的计算资源消耗,训练速度提升2倍。规则化奖励就是不仅要求答案对,解题过程也得规范,防止小朋友瞎猜答案,否则后期没法优化模型。
实验结果可以说相当成功,模型有了顿悟时刻,也就是模型在没有预设代码的情况下,自己学会了思考。因为r1-zero在预训练阶段完全不用监督学习,所以在成本上很有优势。不过,它的问题是解题步骤虽然全,但用的语言可能五花八门,导致可读性很差。
为了解决这个问题,DeepSeek在模型预训练时用了SFT监督微调技术,就像提前给模型看了标准答案模板,规范了答题格式,然后再让模型进行二次强化学习。这样,r1模型就在r1-zero的基础上更进一步,最终达到了和o1模型差不多的水平。
总的来说,r1-zero就像是你家孩子完全自学成才,而r1则是稍微指导下再去自学,所以r1的能力自然更强。另外,r1还有一个很厉害的技术,叫蒸馏技术。简单来说,就是让r1当老师,生成80万条高质量的推理样本,然后用这些样本去训练其他小模型,比如Qwen和LLaMA,让这些小模型也能达到大模型的性能。比如在AIME2024比赛中,Qwen-7B这个小模型就超过了参数更多的QwenQ-32B版本。
最后,从DeepSeek爆火来看,老美也许永远学不会我们的斗争哲学,那就是你打你的(创新架构+算力堆叠),我打我的(算法策略+工程化应用)。
二、2024年LLMs开源:社区生态与技术工具的双重突破
2.1、LLM开源社区:蓬勃发展—从巨头主导到全民共建
2024年,开源LLM生态迎来爆发式增长。以Hugging Face为代表的平台汇聚了大量的开源模型、数据集和工具,极大地降低了LLM开发的门槛。其中,Meta的Llama 3.3系列(支持70B参数本地化推理)和DeepSeek-v3模型(基于合成数据训练成本仅557.6万美元)成为开源领域标杆。中国开源社区亦表现亮眼,阿里通义千问推出Qwen2.5-Coder-32B(Apache 2.0许可),清华智谱AI的ChatGLM-4在编程与多模态任务中展现竞争力。开源模型在Chatbot Arena排行榜占比超70%,标志“开源即主流”时代的到来。
>> 竞争格局变化:2024年,多个实验室赶超OpenAI的GPT-4,涌现出首批超越GPT-4智能水平的模型。开源模型(Meta、Mistral和阿里巴巴等)显著缩小与前沿实验室的差距。
>> 开源模型稳定迭代而Qwen独树一帜:如Qwen、LLama、GLM、Yi、DeepSeek、MiniCPM等也在不断发展。整体来说,对比其它LLM的开源和迭代,Qwen系列模型应该是最晚的,但在多样性、更新速度、全面性方面表现突出。
>> 端侧小语言模型性价比引领:这些SLM模型降低了成本,在许多任务上的表现令人满意。
>> 开源社区的进步:越来越多的研究机构和公司选择开源其LLM成果,促进了学术界和产业界的合作与交流。虽然智能性尚未完全赶上闭源模型,但在大多数任务上已经可以做得很好,并且在某些方面甚至超越了闭源模型。
>> 模型质量与价格:2024年,受开源大模型的影响,所有智能水平的语言模型推理价格大幅下降,OpenAI的GPT-4o mini模型在价格上实现了约100倍的降低,同时保持了接近GPT-4的智能水平。
>> 开发者对LLM的使用情况
● 模型选择标准:开源模型最“香”,但是,开发者选择闭源模型时,模型推理质量和价格是最重要的标准。
● 模型使用方式:大多数开发者使用模型的原始版本,只有少数进行微调或从头训练。
● 模型访问和部署:开发者最常通过无服务器端点访问模型,这与专有模型通常仅通过无服务器端点提供有关。
● 多模态能力需求:大多数LLM用户计划使用多模态功能。
2.2、LLM工具类概述:低门槛开发+高效部署
随着LLM技术的发展,相关工具和框架也得到了快速迭代和完善。这些工具的成熟,降低了开发门槛,加速了LLM技术的应用落地。 开源工具的涌现极大地简化了LLM的开发、部署和应用。 我们看到了许多优秀的工具,例如用于模型开发的工具(例如LangChain)、模型微调的工具包(例如PEFT)、用于模型量化的工具(例如bitsandbytes)、用于模型部署的工具(例如Triton Inference Server)以及用于模型评估的工具(例如EvalHarness)。这些工具的出现,降低了LLM应用的门槛,使得更多开发者能够参与到LLM的开发和应用中。 此外,一些可视化工具也应运而生,帮助开发者更好地理解和调试LLM。 然而,工具的碎片化也带来了一些挑战,开发者需要花费时间和精力来学习和掌握不同的工具。 未来,更易于使用、功能更强大的集成化工具将会成为发展趋势。
类型 | 常用工具 |
数据处理 | Datasets(Hugging Face)、Common Crawl Pipeline Creator、Data-Juicer、synthetic-data-generator |
模型开发 | Transformers(Hugging Face)、PyTorch、MindSpore(华为)、LangChain |
模型训练与微调 | PEFT、Megatron-LM(NVIDIA)、DeepSpeed(Microsoft)、NeMo(NVIDIA)、LLaMA-Factory、trl、Horovod、Unsloth、Xtuner、SWIFT、Firefly、Axolotl、FairScale、ColossalAI |
模型评估 | Evaluate(Hugging Face)、lm-evaluation-harness、OpenCompass、HumanEval、ModelScope、HELM、TruthfulQA |
模型推理 | vLLM、FastAPI、WebLLM、TensorRT、TGI |
模型量化 | Bitsandbytes、Llama.cpp、AutoGPTQ |
模型部署 | AWS SageMaker、AzureML、Google AI Platform |
模型应用 | Olama、Dify、LM Studio、AnythingLLM、RAGFlow、Cherry Studio、CrewAI、Chatbox、Tbox |
三、2024年LLMs技术:数据、算法、算力的协同进化
3.1、数据:从稀缺到合成的范式革新
在2024年,数据领域经历了从稀缺到合成的范式革新。确实,高质量的数据对于训练出色的大模型具有决定性作用。这一年的LLM训练数据集在规模和质量上都有了显著提升,进一步验证了“做好数据就等于LLM已经做好了90%”的观点。
然而,尽管数据量在持续增长,高质量数据的获取和处理仍然是LLM发展的关键瓶颈。数据质量、数据多样性和数据偏差问题依然存在。为此,研究者们正在积极探索数据增强技术,如指令微调、基于人类反馈的强化学习(RLHF)以及数据清洗和去噪技术,以提升模型的性能和可靠性。同时,多模态数据的应用也在扩展,图像、音频和视频数据与文本数据的融合,使得LLM能够处理更丰富的信息,实现更强大的功能。
此外,随着数据隐私和安全问题的日益突出,企业和产品在核心竞争力方面,除了关注数据的积累和处理方法,还需重视合成方法。因此,制定更严格的数据管理规范成为当务之急。
3.1.1、数据质量与数量
在2024年,对于大型语言模型(LLMs)的训练,数据的质量和数量都显示出其重要性。无论是预训练还是微调阶段,足够的数据量和高质量的数据都是不可或缺的。例如,尽管Qwen2.5模型在预训练时使用了18T tokens的数据,这仍然不足以覆盖所有领域的知识,尤其是那些长尾领域的内容,也无法实时更新。
>> 小数据应对策略:对于数据量较小的场景,比如只有几百条的数据,采用PE+ICL+动态示例的方法可能优于微调LLM。
>> 领域数据依旧很少:比如某公司想做行业大模型,声称积累了20年的行业数据,结果一统计数据,只有2w条数据,这表明领域数据的稀缺性仍然是一个挑战。
在2024年,LLMs的训练数据规模和质量都有所提升。数据清洗、标注和验证等环节的加强,确保了训练数据的准确性和可靠性。同时,为了提高LLMs的泛化能力和公平性,数据的多样性和平衡性得到了更多的关注。数据收集过程中努力涵盖不同的主题、风格、观点和语言,以避免偏差和不平衡。数据增强技术,如数据扩增和数据合成,也被应用于进一步丰富数据多样性。尽管,这一年LLMs的训练在数据方面取得了显著进展,但数据的全面覆盖、领域特定数据的稀缺性以及数据的持续更新仍然是需要解决的问题。
3.1.2、数据处理
在大型语言模型的预训练和后训练阶段,数据处理是关键步骤,包括数据的合成、收集、过滤和筛选。数据清洗作为这些步骤中的核心,依然是重要的环节。尽管目前社区尚未完全掌握所有数据清洗的最佳技巧,也无法以低成本获取高质量数据,但可扩展的数据工程仍然是优先级最高的任务。这也充分说明,提升数据处理的效率和效果是推动模型发展的关键。
3.1.3、合成数据显著
2024年,合成数据在大型语言模型的训练中占据了显著地位,尤其是在微调阶段。Phi-4技术报告显示,合成数据在预训练数据中的占比达到了40%,突显了其在模型训练中的重要性。此外,合成数据的应用已成为主流趋势。例如,DeepSeek-R1模型通过自生成数据显著降低了成本,而Meta的Llama 3.1 405B模型验证了合成数据在百亿级模型中的可行性。同时,多模态数据的需求也在增长,谷歌的Gemini 1.5 Pro模型能够处理长达200万Token的上下文,适用于处理整本书或数小时的视频输入。这些进展表明,合成数据不仅在技术上可行,而且在实际应用中具有广泛的前景。
3.2、算法
2024年,智能水平提升的驱动因素:除了预训练计算规模的扩大外,推理时间计算规模、数据质量和新的强化学习技术(如直接偏好优化)也成为提升模型的关键因素。
>> 强化学习与思维链结合:OpenAI-o1、DeepSeek-R1等模型,通过自博弈强化学习内化思维链,显著提升STEM领域推理能力。模型可分解复杂问题、尝试多策略求解,并实现自我纠错,如编程任务中优化算法选择逻辑。
>> 量化与轻量化技术:越来越多的大模型算法支持权重与激活的混合精度量化(INT8/INT4),实现吞吐量的加速提升。其中,llama.cpp通过GGUF格式量化与层分割技术,使百亿参数模型可在消费级GPU运行。
3.2.1、预训练(PT)的核心价值与发展方向:LLM中的PT走向结束 OR 继续坚持?
2024年底,Ilya在NeurIPS的演讲中提出了“pre-training as we know it will end”的观点,这一论断引起了业界的广泛讨论。尽管他的观点有其合理性,尤其是在考虑到他的专业背景和行业洞察力的情况下,但根据目前的开源技术发展情况,许多LLM从业者可能认为这一观点尚早。目前,闭源的GPT-4o和O1模型的具体细节,包括token数量、参数规模和实际性能,外界无法得知。然而,从现有开源技术的角度来看,合成数据、CPT以及后训练研究的发展,仍然在很大程度上依赖于基础模型的质量。O1模型的成功正是预训练和后训练两个阶段共同努力的结果。因此,在开源社区能够达到OpenAI等机构的预训练模型水平之前,继续投资于预训练研究是必要的。
>> 基础模型决定性作用:合成数据、CPT(持续预训练)和Post-training的效能均受限于预训练基座模型的质量,GPT-4o等闭源模型的成功本质上是预训练与后训练协同的结果;
>> 技术发展阶段的限制:开源社区尚未掌握构建达到OpenAI水平的预训练模型能力,过早放弃预训练投入将导致技术代差扩大;
>> 核心矛盾的客观存在:即使Post-training重要性提升,但模型基座的数学推理、逻辑抽象等底层能力仍需通过预训练实现原始积累。
3.2.2、LLM中的CPT技术趋势
行业对CPT的实践逻辑已发生显著变化,呈现三个明确趋势:
>> 效能替代关系:当SFT(监督微调)遇到性能瓶颈时,CPT不再成为默认选项。大模型预训练数据的广域覆盖(如代码、数理知识)已降低特定领域CPT的必要性;
>> 经济性权衡:CPT需要消耗大量领域数据(通常需TB级)并可能导致模型通用能力退化,RAG(检索增强生成)等技术在知识更新场景的边际成本更低,可能是更经济实惠的选择;
>> 技术路径迭代:Post-training通过RLHF(强化学习人类反馈)、DPO(直接偏好优化)等方法直接优化模型输出质量,在参数效率上优于传统CPT。
3.2.3、模型扩展与算法创新的双重突破
当前LLM发展呈现算力效率与算法创新的协同进化:
>> 扩展定律的再验证:Llama3-405B等超大模型表现未达预期,揭示单纯堆砌参数存在技术天花板,需通过MoE(混合专家)、动态路由等架构创新提升算力利用效率;
>> 强化学习的范式突破:DeepSeek-R1通过纯RL训练实现与GPT-4o相当的推理能力,证明模型可通过优化输出路径(而非单纯记忆训练数据)提升思维链质量;
>> 成本控制的技术杠杆:DeepSeek-V3通过算法优化将训练成本压缩至557万美元,其"低资源高智能"路径(使用消费级GPU集群+分布式训练优化)为技术普惠提供实证案例。该实践验证了通过算法创新突破硬件依赖的可行性,可能重构AI产业的价值分配格局。
在扩大模型规模的过程中,确实存在训练技术上的挑战。例如,尽管Meta的Llama3-405B模型在规模上达到了新的高度,但其性能并未完全达到预期,这表明超大模型训练的技术门槛较高,且这些技术目前尚未被公开,,仅为少数机构掌握。如果要降低超大规模模型训练的风险,业界亟需创新训练方法和更稳定的模型设计。同时,目前尚未明确何种规模的模型能够最有效地实现预期结果,这仍然是业界探索的重要方向。
3.2.4、基于强化学习的LLM技术演进与影响:更多精力侧重“思考”而非“背题”
早期的大语言模型(LLM)本身不具备内在思考能力,需通过CoT式的提示工程(如强制输出推理步骤)引导其模拟人类逻辑展开过程。大模型的展开过程可以是自主的,也可以是被控制的,关键是要进行高质量的展开。在 Anthropic 的官方提示词教程中清楚地写着这样一条提示:“始终让 Claude 输出它的思考过程。如果不输出思考过程,就等于没有思考!”
(1)、2024年,OpenAI推出了O1和O3
在LLM的发展中,基于强化学习的模型正在成为新的趋势。OpenAI推出的O1模型通过结合强化学习和推理时间扩展,重新定义了LLM的能力边界。这一创新引发了行业的广泛跟进,多家公司推出了类似模型,显示出这一方向的发展潜力。然而,O1模型在处理复杂问题方面虽有优势,但在普通任务上的表现并不总是超越传统LLM,如GPT4-o。
(2)、2025年初,DeepSeek带来了R1
与此同时,缩放定律(Scaling Law)仍然是模型性能提升的主导因素,但算力效率成为了新的焦点。DeepSeek-R1模型的发布,不仅标志着人工智能领域的一次重大突破,而且在数学推理、自然语言推理和代码生成等任务上与O1性能相当。更重要的是,R1模型通过算法优化,大幅降低了训练成本,仅需要557万美元,实现了高效的成本控制,“四两拨千斤”效果。DeepSeek-R1仅通过强化学习技术进行训练,而没有使用任何SFT数据。在某种程度上可以说,R1模型已经看似学会了自主思考问题,所以更加符合人类的思维规则。这一成就体现了中国在大型模型领域的创新路径,尤其是在成本控制和实用性优化方面的独特优势。
我记得,李开复曾在一次访谈中说过,中国不必完全追随美国的“军备竞赛”模式,而可以通过结合外部研究成果进行本地化创新,实现更高效、更经济的AI发展。其实,国内公司可以在一定的外部学术论文和开源模型的基础上进行创新,结合国内数据资源和落地应用优势,以更低的成本和更快的速度实现技术突破。
DeepSeek-R1的发布和应用正是这一理念的体现,它通过算法创新和工程化的极致,在资源有限的情况下实现了技术上的重大突破,为中国AI行业提供了可行的方向,并为全球AI竞争格局注入了新的活力。这种以算法杠杆撬动硬件依赖,以成本优势倒逼技术优化的做法,可能会促使AI产业的核心利润池从硬件层向算法层转移。如果可以证明低成本+高智能的发展模式可行,那么全球90%无力参与算力竞赛的国家和企业突然获得入场券,这种技术普惠化将彻底浪潮改变。
说句题外话,去年有好几家量化公司的猎头挖我,推荐我去量化公司,我记得其中就包括幻方,当时我本身不想也没法去杭州(尽管杭州大模型的机会特别多),当然,的确也是自己没有看好量化这个方向,所以……
2025年1月20日,正式发布DeepSeek-R1
2025年1月20日,DeepSeek团队正式发布 DeepSeek-R1。DeepSeek作为一家非美国公司,却延续了OpenAI最初的使命,致力于真正开放的、前沿的研究,赋能所有人。该团队不仅开源了大量模型,还公开了所有训练细节,成为首个展示强化学习(RL)飞轮持续增长的开源项目。
DeepSeek-R1的核心创新:DeepSeek-R1通过纯强化学习、真实奖励机制和GRPO算法,展示了在无需人类干预的情况下实现复杂任务的能力。DeepSeek的研究不仅具有理论意义,还通过实际应用展示了强化学习飞轮的潜力,其开源策略和详细的技术披露,为AI社区提供了宝贵的资源和启示。
(1)、纯强化学习驱动:
● 冷启动:完全依赖强化学习,无需监督微调(SFT),类似于AlphaZero从零开始掌握围棋、将棋和国际象棋,无需模仿人类大师的走法。
● 真实奖励机制:使用基于硬编码规则计算的真实奖励,避免使用可被RL轻易“破解”的学习奖励模型。
(2)、模型行为的涌现:
● 思考时间增加:随着训练的进行,模型的思考时间逐渐增加,这是一种自然涌现的特性,而非预先编程。
● 自我反思与探索行为:模型在训练过程中自发地展现出自我反思和探索行为。
(3)、GRPO算法:使用GRPO(DeepSeek于2024年2月发明)代替PPO,它去除了PPO中的评论家网络,使用多个样本的平均奖励,减少了内存使用。GRPO是一种简单但高效的方法,展示了DeepSeek团队的技术实力。
(4)、开放研究的价值:DeepSeek通过公开算法和训练曲线,展示了开放研究对社区的巨大影响。与“ASI”或“Project Strawberry”等神秘项目不同,DeepSeek通过透明的方式实现了技术突破。
LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略
LLMs之DeepSeek-V3:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略_怎样使用deepseek r1-CSDN博客
2025年1月22日,网友在职业社交平台Blind上通过对比Llama 4批露了Meta的GenAI部门的”恐慌“
Meta的GenAI部门正经历一场危机,其核心原因是来自中国的一家不知名公司推出的DeepSeek模型在性能上超越了Meta自家的Llama 4,同时DeepSeek的训练成本远低于Meta的投入。 这不仅暴露了Meta GenAI部门在技术和管理上的问题(高昂的成本、臃肿的组织结构、不明智的产品策略),也引发了对中美AI竞争格局的讨论。
DeepSeek的成功,无论其背后是否存在争议,都对整个AI行业产生了深远的影响,迫使其他公司重新评估自身的战略和技术路线。此外,这也反映了科技行业竞争的残酷性和快速变化的特性。Meta作为一家巨头,面临来自小型、甚至不知名公司的挑战,这并非罕见。 DeepSeek的出现,无论其技术细节如何,都标志着AI领域竞争格局的重大变化。 这提醒我们,技术创新并非仅仅依赖于巨额的资金投入和庞大的团队,更重要的是战略方向的准确性和执行效率。
原贴子总结如下:
>> DeepSeek的出现:一个不知名的中国公司推出了DeepSeek v3模型,在基准测试中超越了Meta的Llama 4模型,这给Meta带来了巨大的压力。DeepSeek的训练成本仅为550万美元(DeepSeek-V3耗时约为2.6M H800 小时),远低于Meta GenAI部门的巨额投入(LLaMA-3耗时约为39.3M H100 小时)。DeepSeek v1 和 v2 也陆续发布,进一步加剧了Meta的危机感。
>> Meta的应对:Meta的工程师们正疯狂地试图反向工程DeepSeek,以期从中学习和改进。管理层则担心如何向领导层解释GenAI部门的巨额成本,尤其是考虑到部门内众多高薪“领导”的薪资都超过了DeepSeek v3的全部训练成本。
>> 组织结构问题:帖子里指出,Meta GenAI部门本应是一个专注于工程的小型组织,但由于许多人为了追求所谓的“影响力”而加入,导致部门臃肿,效率低下。
>> 战略方向偏差:Meta GenAI部门的产品方向也受到批评,例如将AI内容生成应用于Instagram以提高用户参与度,这一策略目前似乎正在被调整。
>> DeepSeek的优势和影响:DeepSeek不仅对Meta构成威胁,也对OpenAI、Google和Anthropic等公司造成了冲击,这被一些人视为开放竞争促进创新的积极一面。 一些评论者认为DeepSeek的成功部分源于对OpenAI模型的“蒸馏”(即利用OpenAI模型的输出进行训练)。 然而,也有人质疑DeepSeek数据的真实性和可靠性,认为其可能受到中国政府的审查和控制。
>> 各方反应:帖子中出现了各种各样的评论,包括对DeepSeek技术的赞赏、对Meta GenAI部门管理的批评、对Nvidia股价下跌的担忧(由于DeepSeek可能减少对GPU的需求)、以及对中美科技竞争的讨论。 一些评论认为DeepSeek的成功反映了中国在AI领域崛起的力量,也有人认为这凸显了美国在AI研发方面的不足。
建议大家看原文,评论极其有意思……
原文地址:Meta genai org in panic mode | Artificial Intelligence - Blind
2025年1月22日,Yann LeCun提出开源模型正在超越闭源模型
Yann LeCun在帖子中指出,人们不应将DeepSeek的表现解读为“中国在人工智能方面超越美国”,而应理解为“开源模式正在超越专有模式”。他强调,DeepSeek之所以能够取得成功,是因为他们利用了开放的研究和开源的资源,例如PyTorch和来自Meta的LLama等。LeCun认为,这种新的想法建立在他人工作的基础之上,并且由于他们的工作是公开发表的开源项目,因此每个人都可以从中受益。这就是开放研究和开源的力量所在。
2025年1月23日,Zuckerberg(Facebook CEO)大赞DeepSeek的竞争力
Mark Elliot Zuckerberg最近在一段访谈中,称赞DeepSeek为一家出色的中国公司,推出了非常先进的模型,并指出中美在大模型领域的竞争异常激烈。他强调,如果未来有一个开源模型被广泛使用,美国公司和美国标准应当占据主导地位,同时认为当前竞争非常接近,美国需要加大支持力度以保持优势。这一评价不仅反映了DeepSeek在全球AI舞台上的崛起,也揭示了地缘政治因素在技术竞争中的深远影响。实际上,未来中美在AI领域的竞争将更加激烈,而开源模型可能成为这场竞争的关键战场。
2025年1月?日,Demis Hassabis(DeepMind CEO)大赞DeepSeek的工程化
Demis Hassabis提到DeepSeek的成就令人印象深刻,但对其依赖西方系统(如训练数据和开源模型)的程度表示不确定,并认为中国在工程能力和规模化方面非常强大。他强调,西方前沿模型目前仍处于领先地位,但需要思考如何保持这一优势。Hassabis的评价反映了全球AI竞争中的复杂心态:一方面承认中国AI技术的快速进步,透露出对中国AI发展路径的疑虑,另一方面也试图维护西方的技术主导地位。这种竞争将推动全球AI技术的进一步发展,同时也可能加剧技术壁垒和地缘政治紧张。
2025年1月25日,AMD正式集成DeepSeek-V3模型
AMD宣布在其Instinct MI300X GPU上集成了新的DeepSeek-V3模型,这一举措意味着DeepSeek-V3的性能将得到显著提升,特别是在与SGLang配合使用时,将实现更高效的AI推理。DeepSeek-V3的集成不仅展示了其在AI领域的应用潜力,也标志着DeepSeek技术的成熟和行业认可,这对于推动AI技术的发展和普及具有重要意义。
2025年1月25日,Elon Musk、Deedy等质疑DeepSeek底层设施中真实GPU个数
Danny作为Menlo Ventures的风投专家,质疑DeepSeek硬件选择策略:尽管DeepSeek在2023年8月已建成包含10,000块A100 GPU的高性能计算集群,但其V3模型训练却仅使用2048块H800 GPU(出口管制版本的H100,传输速率被限制为50%)。
Danny关于DeepSeek的讨论引发了网友对技术路径和合法性的争议:部分评论聚焦技术挑战,如A100 GPU的集成难度和硬件限制对模型训练的影响(如@samsja19指出缺乏NVSwitch和Infiniband的集群难以支持类似DeepSeek-V3的MoE模型);另一些用户质疑其技术独立性,例如@iamnot_elon讽刺其使用“走私H100芯片和窃取IP”,@LoganHan5暗示“作弊可能性”;但也有支持者如@Silverf39113894认为其创新性和开源贡献值得肯定。
总的来看,讨论反映了对DeepSeek技术能力与合规性的两极态度。争议本质源于全球AI竞争的敏感性和地缘博弈——DeepSeek的快速崛起挑战了既有技术霸权,但其依赖开源生态和硬件限制也暴露了产业链短板。未来,中国AI公司需在技术创新与合规透明间平衡,而国际社会需正视技术多极化趋势,避免将技术问题过度政治化。
原文地址:https://x.com/elonmusk/status/1883732381200535936
Salesforce CEO Marc Benioff认为DeepSeek的成功证明了数据的价值远高于昂贵硬件,并称其为“Deepgold时刻”,暗示高质量数据是AI突破的关键。Elon Musk对DeepSeek的成就持怀疑态度,认为DeepSeek实际使用的GPU数量,可能远超公开数据,这可能是由于受限于美国芯片出口管制而隐瞒真实规模。网友评论分为两派,其中支持派中的部分用户认可Benioff的观点,认为DeepSeek的低成本模式颠覆了传统大模型依赖算力的逻辑,并可能推动AI普惠化。而质疑派则怀疑硬件投入被低估。
更多的网友表示,DeepSeek的低成本突破若属实,标志着AI训练范式的革新(如模型蒸馏与合成数据应用),但资源透明度争议可能损害其公信力。未来需独立审计或开源代码以验证技术路径。
2025年1月28日,CBS晚间新闻的评论员把这一影响惊呼为“斯普特尼克时刻”(sputnik moment)到来
2025年2月4日,NVIDIA股价的波动
1月20日DeepSeek团队发布DeepSeek R1后,NVIDIA股价在短期内出现了一定波动,从147.07美元的高点逐步回落至118.55美元,跌幅显著。这一波动可能与市场对DeepSeek R1的关注有关,因为DeepSeek R1作为一款高性能AI模型,可能对NVIDIA在AI硬件领域的市场地位产生潜在挑战。尽管NVIDIA在AI计算领域仍占据主导地位,但DeepSeek R1的发布可能引发了投资者对竞争格局变化的担忧,尤其是在AI模型优化和硬件协同方面。我认为,尽管DeepSeek超底性价比的大模型路径是未来的发展趋势(降低算力依赖),但NVIDIA也并非割韭菜,因为未来依旧需要算力,NVIDIA依旧是地球最大算力硬件供应商,这是基础性力量,而其股价下跌或许并非是合理的反应,或许只是一个冲动的表现,只不过这一事件反映了AI行业竞争的加剧,新兴技术可能对传统巨头形成冲击,但也说明了市场对AI创新的高度敏感。
(3)、对比
o1对比DeepSeek r1
o1模型:预训练 → 强化推理计算(闭源优化)
r1-zero模型:纯强化学习 → GPRO竞争 + 规则化奖励 → 输出“顿悟”但可读性差
r1模型:SFT监督微调 → 强化学习补充 → 二次强化训练 → 高可读性+高性能
模型 | 核心原理及其思路 | 核心技术 | 类比理解 |
Open AI o1 专注思考 | 增加推理时计算量(“思考时间”)而非堆叠预训练算力(传统预训练方法); | >> 训练方法:未公开(闭源); >> 技术创新:无具体披露; >> 实验效果:行业标杆; >> 资源效率:高计算成本(推测); >> 局限性:技术细节不透明; | 让小孩把精力放在思考上,而不是背题 |
DeepSeek r1-zero 完全自学 | 强化学习让模型自行发展推理能力,无需监督数据(成本低),结合GPRO算法和规则化奖励; | >> 训练方法:纯强化学习驱动(无监督数据自学); >> 技术创新:GPRO算法竞争学习、规则化奖励机制; ● GPRO:多模型竞争学习,降低50%资源消耗; ● 规则化奖励:要求解题过程规范,防止“蒙答案”; >> 实验效果:带来“顿悟”能力,但输出可读性差(本质无监督数据),即解题步骤语言混杂;验证了无监督强化学习的可行性; >> 资源效率:训练速度提升2倍,资源消耗降低50%; >> 局限性:r1-zero需额外优化输出逻辑(解决可读性差); | 让小朋友直接上手做卷子,做对了表扬,做错了重做,多个小朋友竞争学习,解题过程要规范 |
DeepSeek r1 先学模板再自学 | 在r1-zero基础上,使用SFT监督微调技术规范解题思路(解决可读性差),再继续进行二次强化训练; | >> 训练方法:融合SFT和RL的混合训练,依次包括SFT监督微调、强化学习补充训练、二次强化训练; >> 实验效果:可读性提升,综合性能达到闭源模型水平,匹敌o1; >> 资源效率:需平衡监督数据与强化学习成本; >> 局限性:r1需高质量监督数据支持(提高推理强度); | 相当于先教小朋友标准解题思路,然后让他们自学并反复练习,提高能力 |
DeepSeek r1-Distill 基于r1蒸馏 | r1模型生成80万高质量样本,用于训练其他小模型(如Qwen-7B),提升性能; | >> 训练方法:模型蒸馏技术; >> 实验效果:蒸馏Qwen-7B后的模型,AIME2024指标可匹敌QwenQ-32B版本; | 让r1模型当老师,生成样本指导其他小模型学习,使小模型也能达到大模型的性能 |
DeepSeek r1对比Kimi k1.5
国内推理模型的技术路线与OpenAI有所不同,DeepSeek和Kimi均未采用复杂的树搜索(如MCTS)、价值函数以及过程奖励模型(PRM),而是选择简化思维过程、依赖真实数据和最终结果。DeepSeek在算法创新、工程化以及开放性方面表现突出,其纯强化学习的“冷启动”方法、GRPO算法的提出以及MIT许可证的开源策略,展示了强大的自主研究能力和技术透明度。相比之下,Kimi在系统设计、多模态性能实现上更具优势,其详细的基础设施设计、混合集群优化以及在MathVista等多模态任务中的优异表现,体现了其在视觉理解和复杂推理领域的技术深度。两者虽各有侧重,但共同推动了强化学习和多模态推理领域的发展,为AI技术的进步提供了多样化的解决方案。
维度 | DeepSeek | Kimi | |
不同点 | 方法论 | 采用AlphaZero方法,完全通过强化学习自举/启动,无需人类干预输入(冷启动),展示了强大的自主学习能力。 DeepSeek提出推理大模型蒸馏出的推理小模型比从头训练推理小模型的能力更强。 | 采用AlphaGo-Master方法,通过轻量级监督微调(SFT)和提示工程化的思维链(CoT)轨迹进行预热,依赖一定的初始人类知识。 Kimi是基于多模态的推理,并创新地提出long2short,采用长CoT模型来提升短CoT模型的性能。 |
许可证与发布 | 模型权重采用MIT许可证,体现思想领导力。 | 尚未发布模型。 | |
多模态性能 | 不涉及 | 在MathVista等基准测试中展现出强大的多模态性能,特别是在视觉理解几何、智商测试等方面。 | |
系统设计细节 | 更关注算法层面的创新,强调纯强化学习的冷启动和真实奖励机制。提出了GRPO算法,简化PPO,去除评论家网络,减少内存使用。 | 涵盖了从RL基础设施到并行策略的方方面面,包括RL基础设施、混合集群、代码沙箱、并行策略;以及学习策略与优化:长上下文、CoT压缩、课程设计、采样策略、测试案例生成等。 | |
相同点 | 思维过程 | 简化思维过程:两者都认为无需复杂的树搜索(如MCTS),只需直接线性化思维轨迹并进行自回归预测。 | |
价值函数 | 避免价值函数:两者都避免了使用需要额外昂贵模型副本的价值函数模型。 | ||
奖励模型 | 简化奖励建模:两者都尽可能依赖真实数据和最终结果,而非密集的奖励建模。 |
3.2.5、小型语言模型的进步
>> 性能提升:小型模型在过去12个月中取得了显著进步,其改进速度远超大型模型,性能差距显著缩小。
>> 提升的驱动因素:知识蒸馏、高质量数据和计算规模的扩大是小型模型进步的主要驱动力。“Chinchilla最优”已成为过去式,大规模实际应用推动了训练计算的增加以降低推理计算成本。开源模型的训练数据量已超过10万亿token。
3.2.6、上下文窗口长度的扩展:玩家没有个128K,吹牛都难以让人信服
>> 显著增长:前沿模型的上下文窗口中位数自2023年第三季度以来增长了32倍,达到128k tokens成为新标准。开源模型在2024年第三季度赶上了专有模型。部分模型(Gemini、Nova)的最大上下文窗口长度已达到2M tokens。
>> 增长驱动因素:生产环境中管理较小的上下文窗口会导致复杂性和权衡;更长的上下文减少了对检索、摘要和截断策略的需求;新的技术(硬件感知分布式注意力实现、注意力近似和长度外推方法,如RoPE)以及推理策略(更多计算用于每个任务)的改进;开发者对长上下文窗口的需求。
LLM上下文窗口长度增长趋势分析
该图显示了2023年第三季度到2024年第四季度LLM最大上下文窗口长度的增长趋势。从图中可以看出,上下文窗口长度在短短一年内增长了32倍,从最初的几千个token增长到目前的百万级别,甚至部分模型已达到200万token。这一增长主要由两类模型驱动:闭源模型和开源模型。最初,闭源模型在上下文窗口长度的扩展方面处于领先地位,但在2024年第三季度,开源模型已经追赶上来,两者在最大上下文长度方面不相上下。 这种显著的增长得益于新技术的应用,例如硬件感知分布式注意力实现、注意力近似和长度外推方法(如RoPE),以及开发者对更长上下文窗口的需求。更长的上下文窗口长度降低了模型应用的复杂性,减少了对检索、摘要和截断策略的需求,并支持多模态输入,例如图像、视频和音频,从而拓展了模型的应用范围。
3.3、算力:智能算力规模激增与能效优化
随着模型规模的不断扩大,智能算力的需求也急剧增加,同时能效优化成为了一个重要的研究方向。2024年,GPU和TPU等专用芯片的性能显著提升,如H100的计算密度比前代提高了3倍,分布式训练技术的成熟使得万卡级集群的效率显著提升,这些都为训练更大规模的LLM提供了可能性。然而,高昂的训练成本仍然是制约中小企业和研究机构参与LLM开发的重要因素。
>> 硬件技术进步:在硬件创新方面,异构计算架构和存算一体芯片等技术的发展,显著降低了单位算力的能耗。例如,新型AI芯片如Groq LPU的推理能效比达到了传统GPU的5-8倍。同时,算法上的突破,如模型压缩和动态计算分配技术,使得在同等性能下算力消耗减少了30-50%,甚至在某些场景下,小模型的性能超过了大模型。
>> 云计算和边缘计算融合:云计算和边缘计算的融合,为LLMs的应用提供了新的机遇。云计算承担了LLM的训练与迭代,而边缘计算则实现了低延迟的推理,如Llama 3-8B模型能够在边缘设备上实时运行。此外,开源工具链如Megatron-DeepSpeed的普及,使得中小团队能够以更低的成本完成大规模模型的训练。
3.3.1、对中国高端AI加速器出口管制升级:时间线与影响
这两张图表详细描述了美国政府对向中国出口高端AI加速器(特别是英伟达GPU)实施的升级管制措施。第一张图表以时间表的形式,展示了不同英伟达GPU架构(例如Ampere、Lovelace和Hopper)的不同型号在不同时间点受到的管制级别,包括未发布、无需许可证、需要许可证和推定拒绝。 第二张图表则总结了这些管制措施的具体内容、生效日期、管制分类(例如总处理性能和互连带宽)、影响标准以及对产业的影响。
图表显示,美国政府对华AI加速器出口管制不断升级,从2022年10月开始,逐步限制了高端GPU的出口,并不断收紧限制标准。 英伟达公司则积极应对,通过推出性能受限的替代产品(如H800和A800)来满足部分市场需求,但这些替代产品随后也被列入管制名单,迫使英伟达进一步开发性能更低的型号(如H20)。 这些管制措施对中国AI产业的发展造成了显著影响,限制了其获取高端AI计算资源的能力,并可能促使中国企业加大自主研发高端芯片的力度。
3.3.2、受美国出口管制影响的AI加速器:性能与密度限制
该图表以散点图的形式,直观地展现了美国对华出口管制中,哪些英伟达和AMD的AI加速器受到限制。图表横轴为“性能密度”(Performance Density,TPP/Die Size),纵轴为“总处理性能”(Total Processing Performance,TPP,单位为TOPS)。 不同颜色的区域代表不同的出口管制级别:绿色区域表示无需许可证,紫色区域表示需要许可证。
图表显示,大部分高端英伟达AI加速器(如H100、A100、L40S等)由于其高性能和高性能密度,都属于需要许可证的范畴,这意味着向中国出口这些产品受到严格限制。 然而,英伟达的H20和L20型号由于其性能和性能密度低于管制阈值,可以自由出口到中国。 这表明美国政府的出口管制措施是基于性能和性能密度这两个关键指标制定的,旨在限制中国获取最先进的AI计算能力。 尽管H20目前可以出口,但未来可能面临进一步的管制,这反映了美国政府对出口管制政策的动态调整和持续关注。
3.3.3、英伟达Hopper、Blackwell和AMD加速器硬件规格对比
该附录表格详细对比了英伟达Hopper架构(包括H100、H800、HGX H20、H200等型号)和Blackwell架构(包括B200等型号)以及AMD MI300X和MI325X加速器的硬件规格。 对比维度包括初始发布日期、内存大小和带宽、功耗(Power/TDP)、FP16浮点运算能力(BF/FP16 FLOPS)、芯片间互联方式、模块类型(SX、PCIe)、制程工艺以及数据来源网址。
表格清晰地展现了不同型号加速器在计算能力、内存容量、功耗和互联带宽等方面的差异。例如,Hopper架构的H100和H200在计算能力和内存带宽方面显著高于Blackwell架构的B200,而AMD的MI300X和MI325X则采用了不同的芯片间互联技术(Infinity Fabric)。 这些规格信息对于理解不同加速器的性能差异以及选择合适的加速器至关重要。 表格还提供了每个规格数据的来源网址,方便读者查阅更多详细信息。
四、2024年LLMs应用:从技术探索到产业落地
4.1、RAG(侧重基于向量数据库):长上下文的杀手级场景
检索增强生成(RAG)技术在2024年初被看作是重要的应用方向之一。该技术融合了传统检索系统的优点和现代生成模型的强大能力,在知识库问答等方面表现出色。然而,在实际应用中,RAG技术在处理复杂指令和涉及函数调用时,其表现并不总是尽如人意,特别是大型语言模型(LLMs)在这方面还有提升空间。
>> 技术成熟度提高:随着技术的不断成熟,2024年RAG技术在提高文本生成质量和准确性方面取得了显著进步。通过结合检索和生成能力,RAG能够更有效地利用外部知识,这在知识问答、文档生成等场景中尤为突出,使得生成的内容更加精确和详尽。
>> 应用场景拓展:RAG的应用领域也在持续扩展。除了传统的知识问答和文档生成,RAG还被应用于智能客服、机器翻译、文本摘要等多个领域。例如,在智能客服场景中,RAG能够迅速检索相关知识点,并为用户提供准确的问题解答。
总的来说,RAG技术在不断进步,其应用范围也在逐步扩大。
4.1.1、RAG的实际应用和落地难点
RAG技术在2024年的确得到了广泛的应用,它通过整合外部知识库,显著增强了大型语言模型(LLM)的知识和信息检索能力,有效减少了LLM的幻觉问题,并提高了其准确性。该技术已被集成到多种应用中,包括问答系统、文档摘要和知识图谱构建等。尽管RAG技术具有许多优势,但它也面临一些挑战。首先,知识库的构建和维护确实需要较高的成本。其次,如何有效地融合外部知识与LLM的生成能力,以确保信息的准确性和生成内容的连贯性,也是一个需要解决的问题。RAG技术的实现看似简单,但要达到高效应用却颇具挑战。其中,文档解析、向量召回、多模态内容回复和模型效果微调是RAG技术落地过程中的四大关键难题,需要针对性的优化和调整。
>> 文档解析难题:特别是PDF格式或扫描件的处理,以及表格数据的解析存在较大挑战。
>> 向量召回问题:即使LLM本身能力强,整体效果仍受限于能否准确召回所有的相关文档片段。
>> 多模态回复不稳定性:例如视觉问答(VQA)等场景下的回复稳定性不足。
>> 模型效果差异:不同用户对答案形式、精炼程度的要求各异,导致即使是同一模型也可能产生不同的反馈。
>> GraphRAG:尽管有优化方案,但由于构建图的成本较高,其应用范围有限。
4.1.2、RAG的四大查询场景及其解决方案:显性事实查询、隐性事实查询、可解释的推理查询、隐藏的推理查询
查询类型 | 特点 | 技术与工程建议 | 工程实践示例 |
显性事实查询 (Explicit Fact Queries) | >> 简单性:直接从数据中检索明确事实,无需复杂推理或多步推理; | T1、基本RAG方法 | 示例:问答系统 |
T2、改进检索和生成阶段 | |||
隐性事实查询 (Implicit Fact Queries) | >> 复杂性增加:需推理或多步推导; | T1、多跳检索与推理 | 示例:股价查询 |
T2、图结构/树结构推理 T3.2、采用NL2DB;采用现有的文本到SQL转换工具,如Chat2DB,实现自然语言到数据库查询的转换; | |||
可解释的推理查询 (Interpretable Rationale Queries) | >> 需应用领域规则和指南 | T1、提示工程与优化:设计规则和步骤明确的提示,自动优化提示;如OPRO采用模型自身生成和评估提示,迭代优化,找到最佳的提示组合; >> 模型微调:使模型能够解析和执行这些编码的规则。 | 示例:客服机器人处理退货请求 |
隐藏的推理查询 (Hidden Rationale Queries) | >> 高复杂性:需领域特定隐含逻辑; | T1、离线学习与经验积累 T1.2、自监督学习:使用模型生成的推理过程(如CoT)作为辅助,优化模型的推理能力; T3.1、领域数据微调:采用大量的领域数据对模型微调,实现内化领域知识; T3.2、强化学习优化推理:使用奖励机制,鼓励模型产生符合期望的推理过程和答案; | 示例:法律助理AI >> 优化策略:采用RAG或FT定期更新模型知识库;引入审核机制(法律专家对LLM输出二次审核); |
LLMs之RAG:《Retrieval Augmented Generation (RAG) and Beyond:A Comprehensive Survey on How to Make your LLMs use External Data More Wisely》翻译与解读
4.2、Agent:理想与现实的差距
2024年,图灵奖得主Yann LeCun曾经说过智能行为有四个关键要素:理解物理世界、拥有持久记忆、推理能力、复杂的规划能力,而目前的LLM不具有这四种能力。但是,随着LLM Agent的快速发展,却带来了全新的可能性。这一年,LLM Agent在模拟环境中的表现已经逐渐展现出对物理世界的初步理解,同时,通过持续的学习和记忆机制,LLM Agent能够在一定程度上保留和利用历史信息。此外,推理能力的提升使得LLM Agent能够解决更加复杂的问题,而在规划能力方面,LLM Agent已经开始尝试进行多步骤的任务规划。尽管与Yann LeCun所描述的智能行为还有一定差距,但LLM Agent的进步无疑为人工智能领域的发展注入了强大的动力。
放眼整个2024年,智能体(Agent)的发展也另一个技术发展所值得探讨的亮点。实际上,Agent技术的发展虽然取得了显著进展,但其理想与现实之间仍存在一定的差距。理想中,Agent应具备多轮交互的上下文理解能力和长期记忆,能够自主执行复杂任务,如规划、执行和监控。现实中,尽管大型语言模型(LLM)驱动的Agent在自动化流程、代码生成和游戏AI等领域展现出潜力,但它们在安全性、可解释性和鲁棒性方面仍需深入研究。例如,Agent在理解用户意图和需求方面有了显著提升,能够生成更智能、自然的交互内容,这在对话系统中表现得尤为明显。然而,技术瓶颈如动态规划和事实核查仍是Agent可靠性的挑战。谷歌误报Encanto 2电影事件便是一个例证,表明自主Agent在实际应用中仍存在可靠性问题。
此外,Agent的应用领域正在扩大,从传统的对话系统和智能客服扩展到智能家居、智能办公和智能教育等。在智能家居中,Agent能够根据用户指令控制家电,提供便捷生活。尽管如此,Agent在实际应用中的表现与其理想状态相比,仍有一段距离需要跨越。
4.2.1、WorkFlows走向Agents
很多人将Agents和Workflows混为一谈,但实际上两者有着本质区别。
分类 | WorkFlows | Agents |
定义 | 通过人为事先定义好明确的规则和流程,利用LLM或者工具解决中间某些步骤的问题 | 为了更加灵活地处理某些任务,由LLM直接动态决策自己的流程和工具使用,无需预定义的规则 |
落地实践 | 在2024年,大多数落地项目采用WorkFlows,因为很多真实场景有明确规则或流程,WorkFlows更加稳定,如RAG就是一种WorkFlow | 适合解决复杂、难以规划、需要不断探索的场景,但在2024年实际应用中较少,因为LLM自动编排存在不可控和不稳定的问题 |
性能表现 | 使用Workflows时,即使是较小规模(如32B)的模型也能稳定运行 | Agents则可能存在不可控性和效率问题。比如GPT4在执行Agents时可能需要多次尝试才能给出答案,有时甚至无法给出答案 |
成本考虑 | 未提及具体成本,但WorkFlows在多数场景下是有效的解决方案 | Devin平台上的Agents服务价格为500$/月,成本较高,且使用复杂度较高 |
对比 | WorkFlows在当前阶段是有效的,并不低级,不需要用Agents来掩饰 | Agents被视为未来的发展方向,但目前很多LLM还不具备足够的支持能力 |
LLMs之Agent:《Building effective agents》翻译与解读—什么是智能体(Agent)→Agent的使用时机和框架→常见的工作流模式(提示链/路由/并行化/协调器-工作者/评估器-优化器)→Agent的特点和适用场景
4.3、Text2SQL(侧重基于关系型数据库):自然语言到结构化数据的桥梁
Text2SQL技术,作为自然语言处理领域的一个新兴应用方向,扮演着将自然语言查询转换为结构化SQL语句的重要角色。2024年,这一技术在数据分析、商业智能和自动化报表生成等领域得到了广泛应用,显著简化了数据库查询过程。尽管Text2SQL技术仍处于初级阶段,但已有显著进展。然而,Text2SQL技术也仍面临一些挑战。首先,当前AI模型输出SQL的准确性尚未达到人类工程师的水平。自然语言表达本身的歧义性可能导致模型理解错误,例如,“谁是这个月最厉害的销售”可能被误解为订单数量最多或订单金额最大。其次,尽管可以通过提示输入数据结构信息来帮助AI模型理解,但缺乏外部行业知识可能导致错误。例如,缺乏对“客户流失率”的理解可能导致错误或编造的结果。此外,AI模型可能会生成看似合理但实际错误的SQL查询,导致“假象”的正常运行。
在性能优化方面,2024年的Text2SQL技术通过改进算法和架构,进一步提高了对自然语言的理解和SQL生成的准确性。同时,Text2SQL的应用场景也在不断拓展,特别是在数据查询和分析领域,它能够将自然语言查询转换为SQL语句,有效提升了数据处理的效率和准确性。
4.3.1、基于LLM技术的六大Text2SQL方案:DIN-SQL、DAIL-SQL、C3、MAC-SQL、MCS-SQL、CHESS
方法 | 简介 | 核心原理 | 核心思路 |
DIN-SQL | DIN-SQL是一种基于少样本提示的方法,将复杂的文本到SQL任务分解为多个子任务模块,采用自校正机制提高SQL生成的准确性。 | 核心在于将复杂的Text2SQL任务分解为Schema Linking、Query Classification、SQL Generation和Self-Correction正四个模块,通过自校正机制提升SQL生成准确性。 | 采用链式思维模板进行少样本提示,根据查询复杂度设计不同的提示词,并利用通用和温和两种提示进行自校正。 通过查询分类,针对不同类型的查询采用不同的策略,例如对于复杂查询,使用中间表示简化转换。 |
DAIL-SQL | 利用LLM进行问题表示、上下文学习和监督微调的Text2SQL方法 | 核心在于利用LLM强大的上下文学习能力,通过精心设计的问题表示和示例选择策略,提高模型的零样本和少样本学习能力,以及如何通过监督微调进一步提升模型性能。 | 提出DAIL选择策略,结合问题和查询相似性选择示例;提出DAIL组织策略,在保留问题-SQL映射信息的同时提高token效率。 探索了多种问题表示方法和示例选择、组织策略,并进行了监督微调。 |
C3 | 一种基于ChatGPT的零样本文本到SQL方法,通过清晰提示、提示校准和一致性输出三个组件提升性能。 | 核心在于通过改进提示设计、校正模型偏差和提高输出一致性来提升ChatGPT在零样本场景下的Text2SQL性能,减少对示例的依赖。 | 采用清晰布局和模式链接精简提示信息;通过提示校准纠正ChatGPT的固有偏差,例如避免不必要的列选择和错误的SQL关键字使用;利用执行一致性策略提高输出稳定性。 |
MAC-SQL | 基于LLM的多智能体协作框架,由分解器、选择器和精炼器组成,用于解决复杂的Text2SQL问题。 | 核心在于将复杂的Text2SQL任务分解为多个子任务,并通过多个智能体协同工作来提高准确性和效率。 | 采用链式思维进行问题分解,选择器减少无关信息干扰,精炼器进行错误检测和修正。 利用多个智能体的协作能力,分别处理不同的子任务,最终生成更准确的SQL查询。 |
MCS-SQL | MCS-SQL 采用模式链接、多SQL生成和选择三个步骤,通过生成多个候选SQL查询并选择最准确的一个来提高Text2SQL的准确性。 | 提高候选SQL的多样性和准确性,以及选择机制的有效性。 | 利用问题相似性和掩码问题相似性选择少样本示例;生成多个不同的提示,生成多个候选SQL查询;通过候选过滤和多选选择机制选择最准确的SQL查询。 |
CHESS | CHESS是一个端到端的Text2SQL系统,通过实体和上下文检索、模式选择和SQL生成三个组件高效处理复杂数据库。 | 高效检索相关信息,缩小模式范围,提高SQL生成的效率和准确性。 | 采用关键词提取、实体检索和上下文检索提取相关信息;使用单列过滤、表选择和最终列选择缩小模式范围;利用候选生成和修订机制生成并修正SQL查询。 使用局部敏感哈希索引和向量数据库加速信息检索。 |
LLMs之Text2SQL:大语言模型场景实战案例应用—让查询和问答应用更智能(利用LLMs与数据库交互)—Text2Sql任务的简介、三类六大技术方案(LLM/RAG/ETA等)、排行榜平台(如Spider/BIRD等)、常用框架(LangChain框架/Vanna/Chat2DB/dataherald)及其实战(比如法律合同/简历/财务数据/客户支持)
4.4、大模型混合部署(开源【优化策略】+闭源【域内数据】):端-云协同新范式
在2024年,大模型混合部署技术得到了显著提升,这一趋势在多个领域得到了应用。该技术通过将开源优化策略与闭源域内数据相结合,实现了端-云协同的新范式。具体来说,企业通过混合部署多个大模型,不仅提高了资源利用效率,还优化了性能。例如,Meta Llama 3.3 70B模型支持本地服务器与云端联合推理,显著降低了通信延迟和部署成本。
在这一年,大模型混合部署的应用场景得到了拓展,特别是在智能客服和智能办公等领域,混合部署多个大模型提供了更智能、高效的服务。企业根据任务需求,灵活调整使用的模型大小和类型,轻量级模型用于快速响应简单请求,复杂任务则由更大规模的模型完成。
LLM的混合部署成为了一种趋势,通过大模型与小模型的结合,既保证了性能,又降低了计算资源消耗,提升了部署的灵活性。
下述大模型混合部署的架构图,展示了一个典型的、基于LLM的AI系统架构。它强调了从底层算力到上层应用的完整流程,并体现了混合部署的策略,即结合开源模型和商业API,以满足不同的需求。 该架构的优势在于其可扩展性和灵活性,可以根据需要调整模型、算法和应用。 然而,其复杂性也意味着需要专业的技术团队进行维护和管理。 未来发展趋势可能包括更强大的算力、更轻量级的模型、更高效的训练算法以及更丰富的应用场景。
层次 | 组件 | 功能描述 | 相关技术 | 备注 |
算力层 | T1、英伟达GPU (RTX 4090, H100); T2、AMD GPU (7900XTX, MI300); T3、华为昇腾910B AI芯片 | 提供模型训练和推理所需的强大计算能力。 | GPU并行计算、AI加速器、高带宽内存、高速互联 | 不同类型的GPU和AI芯片的选择取决于模型大小、训练数据量和推理速度需求。 |
数据层 | 向量数据库;关系型数据库;知识图谱数据库 | 存储和管理各种类型的数据,包括结构化数据(关系型数据库)、非结构化数据(知识图谱、向量数据库)以及用于RAG的上下文信息。 | >> 知识图谱数据库:Neo4j等; >> 向量数据库:Pinecone、Weaviate等; >> 关系型数据库:PostgreSQL、MySQL等; | 数据的质量和组织方式直接影响模型的性能。 不同类型的数据库用于存储不同类型的数据,以优化查询效率。 |
模型层 | >> 开源的嵌入模型:; >> 开源大语言模型:Graph/Table/SQL/Function大模型; >> 开源多模态大模型; >> 商业大模型API:GPT-4 API等; | 包含各种类型的预训练模型,包括嵌入模型、大语言模型、多模态模型以及特定功能的模型。 Embedding Model用于将文本等数据转换为向量表示,方便向量数据库的检索。 商业API则提供经过微调和优化的模型服务。 | LLaMA, OPT, BLOOM (开源大语言模型); BLOOMZ (开源多模态模型); 各种基于Transformer的模型架构; Sentence-BERT, etc. (Embedding Model) | 模型的选择取决于应用场景和性能需求。 开源模型通常需要更精细的调优。 |
算法层 | AI平台 (算法);大模型LLM推理和训练平台;SFT (监督微调) 和 DPO (指令微调) 训练 | 提供模型训练、微调、推理和部署的算法和工具。 SFT和DPO是常用的模型微调技术,用于提高模型的性能和安全性。 | 分布式训练框架 (例如Horovod, DeepSpeed); 模型压缩和量化技术; 强化学习算法 | 算法的选择和优化对模型的效率和性能至关重要。 |
应用层 | ChatGPT-next-web, Flowise, WeChatBot, AutoDev, LiveKitAgent, DIFY, Vanna, GPTWriter等各种AI应用 | 基于底层模型和算法构建的各种AI应用,覆盖聊天机器人、代码生成、数据库查询等多个领域。 | API设计、用户界面设计、应用集成 | 应用层的开发需要考虑用户体验和应用场景。 |
五、2025年LLMs趋势:技术分水岭与生态重构
5.1、以OpenAI的O系列和DeepSeek-R1系列为代表性技术描述趋势预测
大型语言模型(LLM)的未来发展趋势将围绕更大规模、更高性能、更低能耗展开,这需要在模型架构、训练方法和硬件技术上取得突破。 多模态能力将成为关键特征,模型将能够处理图像、音频和视频等多种媒体数据。 同时,提升模型的可解释性和可控性,以解决安全性和可靠性问题,也至关重要。
OpenAI的O系列和DeepSeek的R1系列模型代表了这一发展趋势的高端方向。 OpenAI的O系列可能侧重于通用能力,例如更长的上下文窗口和更复杂的多模态输入,以提升生成质量和效率;而DeepSeek的R1系列则可能专注于增强推理能力,并通过合成数据训练和稀疏化架构降低训练成本,在特定领域展现强大潜力。
总而言之,这两条产品线分别代表了LLM在通用能力和专业化能力上的不同发展方向,并有望在2025年引领LLM技术发展。
LLMs之DeepSeek:从DeepSeek系列模型(DeepSeek-V1(DeepSeek-Coder→DeepSeekMath)→DeepSeekMoE→DeepSeek-V2→DeepSeek-V3→DeepSeek-R1)的迭代看未来模型版本的技术趋势和方向预测
5.2、多模态模型与纯LLM的对比
2024年,多模态模型在图像生成质量上取得了显著进展,特别是在照片真实感、提示遵守和文本渲染方面。同时,视频生成技术也在竞争中不断进步,OpenAI的Sora模型等新发布模型面临着激烈的市场竞争。视频生成模型的质量评估正在变得更加系统化,采用了众包偏好等方法。
未来,多模型对比和融合将成为大型语言模型(LLM)发展的重要趋势。通过结合不同模型的优势,可以构建更强大、更可靠的LLM系统。模型的评估和比较也将变得更加标准化,以帮助开发者选择最合适的模型。然而,多模态模型在实际应用中可能不如纯LLM智能,尤其是在流程图解析和图片形式的问题回答方面,尽管在公式识别方面表现较好。此外,图像输入可能导致模型输出更多错误或不一致的回答,影响模型智能程度。
开源模型与闭源模型的性能差距正在缩小,企业趋向于采用混合部署策略。视频与3D数据处理能力成为新的竞争焦点,预计将出现“全感官交互”模型。同时,10B以下参数的轻量化模型在端侧设备的应用将更加广泛。
2024年图像生成模型竞技场ELO排名及发布日期
该图展示了Artificial Analysis Image Arena在2024年12月对文本转图像模型质量评估的结果。Arena使用超过150万条众包偏好数据计算ELO评分,反映了不同模型的相对质量。图表左侧的散点图显示了各个模型的ELO评分与其发布日期的关系,右侧表格则列出了排名前五的模型及其创建者、发布日期和ELO评分。值得注意的是,前五名模型全部在2024年第三季度之后发布,这表明2024年图像生成模型领域竞争激烈,技术进步迅速。 Recraft AI的Recraft v3模型以1161分的ELO评分位居榜首。
2024年视频生成模型竞技场ELO排名及发布日期
该图展示了Artificial Analysis Video Generation Arena在2024年12月对视频生成模型质量评估的结果。Arena使用超过20万条众包偏好数据计算ELO评分,反映了不同模型的相对质量。图表左侧的散点图显示了各个模型的ELO评分与其发布日期的关系,右侧表格则列出了排名前五的模型及其创建者、发布日期和ELO评分。 OpenAI的Sora模型在2024年2月发布预览版时竞争对手较少,但到12月正式发布时,市场竞争已变得异常激烈。最终,Sora以1147分的ELO评分位居榜首。 值得注意的是,排名前五的模型均在2024年发布,这反映了2024年视频生成模型领域的快速发展和竞争加剧。
2024年语音合成模型竞技场ELO排名及发布日期
该图展示了Artificial Analysis Speech Arena在2024年12月对文本转语音模型质量评估的结果。Arena使用了超过2.5万条众包偏好数据来计算ELO评分,该评分反映了不同文本转语音模型的相对质量。图表左侧的散点图显示了各个模型的ELO评分与其发布日期的关系,右侧表格列出了排名前五的模型、创建者、发布日期和ELO评分。 数据显示,2024年基于最新Transformer架构的文本转语音模型取得了显著的质量提升,超越了长期以来占据主导地位的超大规模云服务提供商的产品。OpenAI的HD, OpenAI TTS模型以1192分的ELO评分位居榜首。
六、展望
2024年是大型语言模型(LLM)技术发展的重要一年,其在开源生态、核心技术和应用场景等方面均取得了显著进展,标志着LLM技术从实验室走向产业化的关键转折点。 展望2025年,多模态、低成本和端侧智能将成为发展重点。 开发者应关注开源生态和工具链的演进,企业则应关注算力提升和混合部署方案,以抢占下一代AI应用的高地。 LLM技术的持续成熟和新挑战的出现,将推动整个人工智能行业向前发展。
最后,就三个四字吧……
希望大家:年复一年,年赴一年,年富一年!
参考内容
《Artificial Analysis AI Review—2024 Highlights》
《State of AI: China Artificial Analysis Q1 2025》
等……