Diffuser,Decision Diffuser,Diffusion Policy

技术演进​​:Diffuser(轨迹规划)→ Decision Diffuser(条件决策)→ Diffusion Policy(端到端控制)。

 ​​一、设计理念解析​

  1. ​规避奖励设计的复杂性​
    Diffusion Policy 的初衷是​​避开强化学习中奖励函数设计的难题​​。通过直接建模动作分布,减少对人工设计奖励的依赖,尤其适用于动作空间复杂、奖励难以量化的任务(如灵巧操作)

  2. ​与Diffuser/Decision Diffuser的区别​

    • ​Diffuser​​:需预定义奖励函数生成高回报轨迹
    • ​Decision Diffuser​​:用分类器无关引导(CFG)融合奖励/目标条件
    • ​Diffusion Policy​​:​​唯一无需奖励即可独立运行​​的框架(也可结合强化学习理念优化)

 ​​二、算法核心思想与对比总结​

​维度​​Diffuser​​Decision Diffuser​​Diffusion Policy​
​建模对象​状态轨迹(State Trajectory)状态-动作序列(State-Action Sequence)动作分布(Action Distribution)
​决策方式​基于采样的轨迹规划(一次性生成全局轨迹)条件化轨迹生成(目标/奖励引导)状态条件化的动作生成(单步或多步)
​核心创新​首次将扩散模型引入RL,生成多步轨迹引入​​分类器无关引导(CFG)​​ 和 ​​目标条件化​直接建模动作分布,解决行为克隆的"左右为难"问题
​训练范式​离线训练 + 能量引导采样离线训练 + 多条件(奖励/目标)引导模仿学习(BC)或离线RL优化(如Q-learning)
​采样效率​低(需50+步采样)中(15-25步)较高(可压缩至5-10步)
​适用场景​长时程规划(导航、机器人控制)稀疏奖励任务(AntMaze、厨房任务)实时控制(机器人抓取、游戏AI)

 ​​三、算法详解与代表性工作​

1️⃣ ​​Diffuser:基于轨迹生成的扩散模型​
  • ​核心思想​​:将强化学习视为​​轨迹生成问题​​,扩散模型直接拟合状态序列分布(p(τ),其中 τ={s0​,s1​,...,sT​})。通过反向扩散过程生成高回报轨迹,再通过控制算法(如MPC)执行动作
  • ​创新点​​:
    • ​非自回归预测​​:一次性生成完整轨迹,避免传统RL的迭代误差累积
    • ​能量引导采样​​:用奖励函数构建能量函数 E(τ),引导采样过程偏向高回报轨迹(如 p(τ)∝exp(E(τ)/temperature))
  • ​局限​​:采样步数多(>50步),实时性差;依赖预定义奖励函数,不适用于复杂偏好对齐任务
  • ​代表工作​​:
    • Diffuser:在Maze2D任务中生成全局路径,解决长时程稀疏奖励问题
    • EDIS:引入能量函数动态调整采样分布,弥合离线与在线数据差异,在AntMaze任务提升20%性能
2️⃣ ​​Decision Diffuser:多条件引导的决策生成​
  • ​核心思想​​:扩展Diffuser,支持​​多条件生成​​(如目标状态、奖励函数、人类偏好)。通过分类器无关引导(CFG)动态融合条件信息,生成多样化策略
  • ​创新点​​:
    • ​条件解耦​​:将目标、奖励等条件作为独立引导信号,增强策略灵活性
    • ​自适应重评估​​(DIAR):动态调整规划长度,比较当前与未来状态价值,平衡长短期决策
  • ​局限​​:仍依赖轨迹级生成,计算开销大;需预训练扩散模型。
  • ​代表工作​​:
    • Decision Diffuser:在厨房多任务环境中,通过目标条件化生成洗碗、开关柜等动作序列,成功率超传统RL 50%
    • DIAR:结合扩散模型与隐式Q学习,在AntMaze任务中实现SOTA,解决分布外动作问题
3️⃣ ​​Diffusion Policy:端到端的动作生成策略​
  • ​核心思想​​:直接建模​​状态→动作​​的映射 p(a∣s),将扩散模型作为策略网络输出多峰动作分布,替代传统高斯策略
  • ​创新点​​:
    • ​多峰动作建模​​:解决行为克隆中数据冲突问题(如"左右为难"场景)
    • ​高效采样优化​​:通过蒸馏(Consistency Models)、低步数采样(5步)提升实时性
  • ​局限​​:在线训练困难(PPO/DPO无法直接应用);离散动作支持弱
  • ​代表工作​​:
    • Diffusion Policy:双臂机器人抓取任务中学习多种最优解(如不同抓握位姿),多样性远超高斯策略
    • Curiosity-Diffuser:用RND好奇心模块约束动作分布,减少未知状态幻觉,在CS:GO游戏鼠标控制中提升可靠性

 ​​四、核心差异点​

​维度​​Diffuser​​Decision Diffuser​​Diffusion Policy​
​建模对象​状态轨迹(State Trajectory)状态-动作序列(State-Action Sequence)动作分布(Action Distribution)
​决策方式​生成全局轨迹后提取动作(规划→控制分离)条件化生成完整动作序列(目标/奖励引导)状态→动作的直接映射(端到端控制)
​核心创新​首创扩散模型规划,用能量函数引导采样引入​​分类器无关引导(CFG)​​ 实现多条件控制直接建模动作分布,解决行为克隆的"多峰冲突"
​训练目标​拟合状态转移概率 p(s0:T​)联合优化状态-动作分布 p(s0:T​,a0:T​)学习条件动作分布 p(at​∣st​)
​实时性​低(约1Hz),需50+步采样中(约5-10Hz)高(可达122Hz),支持5步快速采样
​典型场景​全局路径规划(仓储物流)稀疏奖励任务(厨房多步骤操作)实时控制(机械臂抓取、游戏AI)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值