[读论文]Deepseek V1

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

介绍

  • 推理任务

    1. DeepSeek-R1在AIME 2024上获得了79.8%的Pass@1得分,略微超越了OpenAI-o1-1217。在MATH-500上,它获得了97.3%的得分,与OpenAI-o1-1217相当,并显著优于其他模型。

    2. 在与编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,其在Codeforces上的Elo评分为2029,超越了96.3%的人类参赛者。在工程相关任务中,DeepSeek-R1的表现略优于DeepSeek-V3,这可能有助于开发人员在现实世界任务中的应用。

  • 知识任务:在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了出色的成绩,显著优于DeepSeek-V3,得分分别为90.8%(MMLU)、84.0%(MMLU-Pro)和71.5%(GPQA Diamond)。虽然在这些基准测试中其表现略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试SimpleQA上,DeepSeek-R1优于DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1在这一基准测试中也超越了GPT-4o。

  • 其他任务:DeepSeek-R1在创意写作、通用问答、编辑、总结等广泛任务中也表现出色。它在AlpacaEval 2.0上获得了87.6%的长度控制胜率,在ArenaHard上获得了92.3%的胜率,展示了其在智能处理非考试导向查询方面的强大能力。此外,DeepSeek-R1在需要长上下文理解的任务上表现出色,显著优于DeepSeek-V3。

直接在基础模型上应用强化学习(RL),而不依赖于监督微调(SFT)作为初步步骤

大模型的推理模式可以蒸馏到小模型中,从而获得比在小模型上通过RL发现的推理模式更好的性能

2. 方法

(1)DeepSeek-R1-Zero,它直接在基础模型上应用RL,不使用任何SFT数据;

(2)DeepSeek-R1,它从经过数千条长思维链(CoT)示例微调的检查点开始应用RL;

(3)将DeepSeek-R1的推理能力蒸馏到小型密集模型中。

2.2.1 强化学习

为了节省RL的训练成本,我们采用了组相对策略优化(GRPO)(Shao et al., 2024),它放弃了通常与策略模型大小相同的批评模型,而是从组分数中估计基线。具体来说,对于每个问题 q,GRPO从旧策略 \pi\theta_{old} 中采样一组输出{o1​,o2​,⋯,oG​},然后通过最大化以下目标来优化策略模型  \pi\theta_{old}

[ \mathcal{J}_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q),{\{o_i\}}_{i=1}^{G} \sim\pi{\theta_{old}}(O|q)] ]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值