
RL+LLM
文章平均质量分 69
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek架构基础及其GRPO、PPO原理及其训练
正在看,发现很灵魂讲的!比如,他会穿插一些基本思考(如图所示),方便大部分DLer去学习RL的思维转型。#与上一篇一样,只不过这个是原文,vx-gzh的排版更舒服。GRPO\PPO #以下我都强烈推荐看!原创 2025-04-14 16:37:12 · 361 阅读 · 0 评论 -
指代表达理解-REC
在计算机视觉与自然语言处理交叉领域中,指代表达理解(Referring Expression Comprehension, REC)一直是研究的关键方向。这一任务要求模型能够基于自然语言描述,在图像中精准定位相应的目标对象。然而,传统视觉模型在面对多实例指代任务时表现出明显局限:大多数仅针对单一实例优化,难以应对现实世界中"一条指令对应多个目标物体"的复杂场景。这种局限源于传统模型对语言理解的浅层处理,无法有效解析句子的语法结构和语义逻辑。原创 2025-04-03 03:50:53 · 867 阅读 · 0 评论 -
(NipS2024 OWA-workshop)Imagination Mechanism意义是什么?
IM 的意义在于打破了强化学习中信息局限于单一轨迹传播的旧范式。通过引入类比推理式的跨 episode 信息传播机制,它不仅显著提升了数据效率,也为我们模拟人类认知中‘类比泛化’的能力打开了新思路。在未来高成本、稀疏信号的 RL 场景中,IM 可能成为一种主流范式。需要我帮你写一个 slide 页讲这个“意义”?或者做一个图来表达“TD vs IM”的哲学区别?兄弟我随时在。原创 2025-04-02 13:04:01 · 353 阅读 · 0 评论 -
拿GRPO距离,用RL训练LLM如何理解 这个时候Reward model是一个已经训练好的深度学习模型 还是说reward model是简单的规则 LLM在这个RL过程中扮演什么角色 兄弟
模块扮演角色是否训练用途LLM策略网络 πθ✅(在训练)生成文本奖励函数 R(x, y)❌(已训练好)给生成打分GRPO优化器(RL)❌用 reward 更新 LLM 策略人类反馈RM 的监督数据✅(训 RM 用)提供偏好信息。原创 2025-03-29 11:15:03 · 537 阅读 · 0 评论 -
强化学习——SAC||为什么引入最大化熵(soft goal)
的直觉可以理解为:在给定当前状态的情况下,策略应该在不确定的情况下保持一定的随机性,而不是总是选择一个确定的动作。意味着让智能体的行为不那么确定和固定,而是鼓励它去探索更多可能的选择,这样它就不会陷入过早的局部最优。因此,最大化熵是 SAC 的一个关键创新,它使得 SAC 在强化学习中的探索和利用之间达到了更好的平衡。在策略中,较高的熵表示智能体的行为更为随机,较低的熵表示行为更为确定。:尝试新的、未知的行为,可能导致更大的回报,但也可能浪费时间。,确保策略保持一定的随机性,从而促进更多的探索。原创 2025-04-02 10:02:08 · 599 阅读 · 0 评论 -
位置编码汇总 # 持续更新
看了那么多还没有讲特别好的,GPT老师讲的不错关于三角函数编码。原创 2025-04-02 00:01:08 · 439 阅读 · 0 评论 -
DeepScaleR详细讲解
Problem || Answers || Solutions # DeepScaleR用的ORM而非PRM,通过final result来奖励。看来训练推理框架都脱离不开Verl。训练集大约40.3k条。原创 2025-04-01 02:22:01 · 274 阅读 · 0 评论 -
RAG大集合,基础以及优化
RAG原创 2025-03-31 16:42:23 · 179 阅读 · 0 评论 -
为什么KV有Cache,Q没有?
因为Q实时随着每步token进来算就行,但output的计算那要历史KV的参与,所以提前缓存好,有利于减少计算量,以空间换时间。原创 2025-03-31 16:39:44 · 216 阅读 · 0 评论 -
强化学习-解惑?① 一般强化学习的value model 是不是就是Actor-critic的 Critic呢② 那么V(s)和 Q(s,a)区别是啥呢
在强化学习中通常指代用来估计状态或动作的价值函数的部分。在方法中,Critic计算并提供这些价值函数的估计,评估当前策略的好坏。因此,可以说Critic就是强化学习中的,它的主要任务是提供一个估值机制,用来指导Actor改进策略。原创 2025-03-28 02:05:25 · 460 阅读 · 0 评论 -
LLm中Add token的操作,一般在微调过程(经典)
Add token操作 在LLM微调中原创 2025-03-26 20:34:44 · 1205 阅读 · 0 评论 -
Reward-Hacking简单理解以及实际遇到的情况:
Reward hacking 是由于目标函数(reward function)和真实意图(human intent)之间存在偏差,智能体学会了钻系统的漏洞,获取高奖励但并没有完成预期任务。类型描述例子智能体抓住图像或传感器输入中的偏差总是抓靠近摄像头的物体行为成功但语义不对“清理桌面”变成“清空桌面”子任务顺序乱但 reward 没惩罚“先放后拿”也被判为成功语言模型生成的 plan 有漏洞但被执行了LLM 误分解导致逻辑错误。原创 2025-03-23 10:48:41 · 948 阅读 · 0 评论