DeepSeek架构基础及其GRPO、PPO原理及其训练

基础知识篇 

DeepSeek-R1 和 DeepSeek-R1-Zero 的区别(通俗版) - 知乎

深搜索-ai/DeepSeek-R1-蒸馏-Qwen-1.5B ·拥抱脸

deepseek 冷启动数据、推理类与非推理类SFT数据详解 - 知乎

DeepSeek-R1技术笔记 (含图解和技术点介绍) #我艾的工作!

GRPO\PPO #以下我都强烈推荐看!

PPO & GRPO原理,小学生也能看懂!#入门的时候看的

Deepseek的RL算法GRPO解读 #正在看,发现很灵魂讲的!比如,他会穿插一些基本思考(如图所示),方便大部分DLer去学习RL的思维转型。

Deepseek的RL算法GRPO解读 - 知乎#与上一篇一样,只不过这个是原文,vx-gzh的排版更舒服

一文搞懂DPO、PPO和GRPO;附代码理解 #算法狗 哥的工作


实战篇

中文复现Deepseek核心算法GRPO!代码开源+数学推导,超越传统强化学习


进阶篇

PPO

DAPO

浅谈VC-PPO 与 DAPO

#我自己的笔记

CPPO

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值