DeepSeek-R1 蒸馏数据的生成

最新推荐文章于 2025-03-17 14:09:50 发布

just do it now

最新推荐文章于 2025-03-17 14:09:50 发布

阅读量1.5k

点赞数 6

CC 4.0 BY-SA版权

文章标签：人工智能

推理任务的选择：研究人员选择了多种推理任务，包括数学、编码、科学推理和逻辑推理等。这些任务通常具有明确的解决方案，适合通过规则进行验证。
拒绝采样（Rejection Sampling）：从DeepSeek-R1的强化学习（RL）检查点生成推理轨迹。具体步骤如下：
- 对于每个推理任务，研究人员生成多个模型输出（即多个推理轨迹）。
- 通过规则或生成式奖励模型（Generative Reward Model）来评估这些输出的正确性。规则奖励模型用于那些可以通过确定性规则验证的任务（如数学问题），而生成式奖励模型则用于更复杂的任务，通过将模型输出与真实答案进行比较来评估。
- 过滤掉不符合要求的输出，例如语言混合、长段落、代码块等，只保留正确的推理轨迹。
数据规模：最终，研究人员生成了约600,000个与推理相关的训练样本。

非推理任务的选择：非推理任务包括写作、事实问答、自我认知、翻译等。这些任务不需要复杂的推理过程，但需要模型具备良好的语言理解和生成能力。
数据来源：研究人员使用了DeepSeek-V3的监督微调（SFT）数据集，并在此基础上生成潜在的推理链（Chain-of-Thought, CoT）来回答问题。
生成过程：
- 对于复杂的非推理任务（如写作或事实问答），研究人员调用DeepSeek-V3生成潜在的推理链，然后再生成最终答案。
- 对于简单的查询（如“你好”），研究人员不提供推理链，直接生成答案。
数据规模：最终，研究人员生成了约200,000个与非推理相关的训练样本。

推理数据格式：推理数据的输出格式通常包括推理过程和最终答案。推理过程被包含在<think>和</think>标签中，而最终答案则包含在<answer>和</answer>标签中。这种格式有助于模型在生成答案时保持结构化的推理过程。
非推理数据格式：非推理数据的格式相对简单，通常直接生成答案，而不需要复杂的推理过程。