技术演进:Diffuser(轨迹规划)→ Decision Diffuser(条件决策)→ Diffusion Policy(端到端控制)。
一、设计理念解析
-
规避奖励设计的复杂性
Diffusion Policy 的初衷是避开强化学习中奖励函数设计的难题。通过直接建模动作分布,减少对人工设计奖励的依赖,尤其适用于动作空间复杂、奖励难以量化的任务(如灵巧操作) -
与Diffuser/Decision Diffuser的区别
- Diffuser:需预定义奖励函数生成高回报轨迹
- Decision Diffuser:用分类器无关引导(CFG)融合奖励/目标条件
- Diffusion Policy:唯一无需奖励即可独立运行的框架(也可结合强化学习理念优化)
二、算法核心思想与对比总结
维度 | Diffuser | Decision Diffuser | Diffusion Policy |
---|---|---|---|
建模对象 | 状态轨迹(State Trajectory) | 状态-动作序列(State-Action Sequence) | 动作分布(Action Distribution) |
决策方式 | 基于采样的轨迹规划(一次性生成全局轨迹) | 条件化轨迹生成(目标/奖励引导) | 状态条件化的动作生成(单步或多步) |
核心创新 | 首次将扩散模型引入RL,生成多步轨迹 | 引入分类器无关引导(CFG) 和 目标条件化 | 直接建模动作分布,解决行为克隆的"左右为难"问题 |
训练范式 | 离线训练 + 能量引导采样 | 离线训练 + 多条件(奖励/目标)引导 | 模仿学习(BC)或离线RL优化(如Q-learning) |
采样效率 | 低(需50+步采样) | 中(15-25步) | 较高(可压缩至5-10步) |
适用场景 | 长时程规划(导航、机器人控制) | 稀疏奖励任务(AntMaze、厨房任务) | 实时控制(机器人抓取、游戏AI) |
三、算法详解与代表性工作
1️⃣ Diffuser:基于轨迹生成的扩散模型
- 核心思想:将强化学习视为轨迹生成问题,扩散模型直接拟合状态序列分布(p(τ),其中 τ={s0,s1,...,sT})。通过反向扩散过程生成高回报轨迹,再通过控制算法(如MPC)执行动作
- 创新点:
- 非自回归预测:一次性生成完整轨迹,避免传统RL的迭代误差累积
- 能量引导采样:用奖励函数构建能量函数 E(τ),引导采样过程偏向高回报轨迹(如 p(τ)∝exp(E(τ)/temperature))
- 局限:采样步数多(>50步),实时性差;依赖预定义奖励函数,不适用于复杂偏好对齐任务
- 代表工作:
- Diffuser:在Maze2D任务中生成全局路径,解决长时程稀疏奖励问题
- EDIS:引入能量函数动态调整采样分布,弥合离线与在线数据差异,在AntMaze任务提升20%性能
2️⃣ Decision Diffuser:多条件引导的决策生成
- 核心思想:扩展Diffuser,支持多条件生成(如目标状态、奖励函数、人类偏好)。通过分类器无关引导(CFG)动态融合条件信息,生成多样化策略
- 创新点:
- 条件解耦:将目标、奖励等条件作为独立引导信号,增强策略灵活性
- 自适应重评估(DIAR):动态调整规划长度,比较当前与未来状态价值,平衡长短期决策
- 局限:仍依赖轨迹级生成,计算开销大;需预训练扩散模型。
- 代表工作:
- Decision Diffuser:在厨房多任务环境中,通过目标条件化生成洗碗、开关柜等动作序列,成功率超传统RL 50%
- DIAR:结合扩散模型与隐式Q学习,在AntMaze任务中实现SOTA,解决分布外动作问题
3️⃣ Diffusion Policy:端到端的动作生成策略
- 核心思想:直接建模状态→动作的映射 p(a∣s),将扩散模型作为策略网络输出多峰动作分布,替代传统高斯策略
- 创新点:
- 多峰动作建模:解决行为克隆中数据冲突问题(如"左右为难"场景)
- 高效采样优化:通过蒸馏(Consistency Models)、低步数采样(5步)提升实时性
- 局限:在线训练困难(PPO/DPO无法直接应用);离散动作支持弱
- 代表工作:
- Diffusion Policy:双臂机器人抓取任务中学习多种最优解(如不同抓握位姿),多样性远超高斯策略
- Curiosity-Diffuser:用RND好奇心模块约束动作分布,减少未知状态幻觉,在CS:GO游戏鼠标控制中提升可靠性
四、核心差异点
维度 | Diffuser | Decision Diffuser | Diffusion Policy |
---|---|---|---|
建模对象 | 状态轨迹(State Trajectory) | 状态-动作序列(State-Action Sequence) | 动作分布(Action Distribution) |
决策方式 | 生成全局轨迹后提取动作(规划→控制分离) | 条件化生成完整动作序列(目标/奖励引导) | 状态→动作的直接映射(端到端控制) |
核心创新 | 首创扩散模型规划,用能量函数引导采样 | 引入分类器无关引导(CFG) 实现多条件控制 | 直接建模动作分布,解决行为克隆的"多峰冲突" |
训练目标 | 拟合状态转移概率 p(s0:T) | 联合优化状态-动作分布 p(s0:T,a0:T) | 学习条件动作分布 p(at∣st) |
实时性 | 低(约1Hz),需50+步采样 | 中(约5-10Hz) | 高(可达122Hz),支持5步快速采样 |
典型场景 | 全局路径规划(仓储物流) | 稀疏奖励任务(厨房多步骤操作) | 实时控制(机械臂抓取、游戏AI) |