
LLM+强化
文章平均质量分 86
Hali_Botebie
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
(保存完最后一个DS案例的日志)看到R1设身处地的为我的粗糙的提示词思考时,我突然想起邱锡鹏教授的话:「强推理模型的终点是Agent」。而今天,我们正站在这个转折点上——这不是终结,而是新炼金时代的开始。技术永远在追问:我们能否做得更优雅?而R1的回答是:让强化学习重新定义可能性的边界。从 V3 到 R1,DeepSeek 完成了一条基座赋能 → 纯RL验证 → 多阶段优化的完整技术路径。这场演进不仅是算法的胜利,更是开源精神的体现——它证明:最强的推理能力,可以诞生于开放协作的土壤。AI。转载 2025-02-08 12:46:28 · 381 阅读 · 0 评论 -
“R1 Computer Use”通过强化学习和神经奖励模型来改进计算机交互
DeepSeek-R1是一个大型语言模型,它通过特定的训练流程和技术,成功复现了OpenAI o1的深度推理能力。这一成就不仅在于它达到了与OpenAI o1相当的推理水平,更在于它通过开源的方式分享了其实现细节,为行业作出了重要贡献。原创 2025-02-07 11:40:51 · 879 阅读 · 0 评论