Diffuser，Decision Diffuser，Diffusion Policy

笑傲江湖2023

于 2025-07-18 11:16:08 发布

阅读量798

点赞数 20

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48878618/article/details/149440606

技术演进：Diffuser（轨迹规划）→ Decision Diffuser（条件决策）→ Diffusion Policy（端到端控制）。

一、设计理念解析

规避奖励设计的复杂性
Diffusion Policy 的初衷是避开强化学习中奖励函数设计的难题。通过直接建模动作分布，减少对人工设计奖励的依赖，尤其适用于动作空间复杂、奖励难以量化的任务（如灵巧操作）
与Diffuser/Decision Diffuser的区别
- Diffuser：需预定义奖励函数生成高回报轨迹
- Decision Diffuser：用分类器无关引导（CFG）融合奖励/目标条件
- Diffusion Policy：唯一无需奖励即可独立运行的框架(也可结合强化学习理念优化)

二、算法核心思想与对比总结

维度	Diffuser	Decision Diffuser	Diffusion Policy
建模对象	状态轨迹（State Trajectory）	状态-动作序列（State-Action Sequence）	动作分布（Action Distribution）
决策方式	基于采样的轨迹规划（一次性生成全局轨迹）	条件化轨迹生成（目标/奖励引导）	状态条件化的动作生成（单步或多步）
核心创新	首次将扩散模型引入RL，生成多步轨迹	引入分类器无关引导（CFG）和目标条件化	直接建模动作分布，解决行为克隆的"左右为难"问题
训练范式	离线训练 + 能量引导采样	离线训练 + 多条件（奖励/目标）引导	模仿学习（BC）或离线RL优化（如Q-learning）
采样效率	低（需50+步采样）	中（15-25步）	较高（可压缩至5-10步）
适用场景	长时程规划（导航、机器人控制）	稀疏奖励任务（AntMaze、厨房任务）	实时控制（机器人抓取、游戏AI）

三、算法详解与代表性工作

1️⃣ Diffuser：基于轨迹生成的扩散模型

核心思想：将强化学习视为轨迹生成问题，扩散模型直接拟合状态序列分布（p(τ)，其中 τ={s0,s1,...,sT})。通过反向扩散过程生成高回报轨迹，再通过控制算法（如MPC）执行动作
创新点：
- 非自回归预测：一次性生成完整轨迹，避免传统RL的迭代误差累积
- 能量引导采样：用奖励函数构建能量函数 E(τ)，引导采样过程偏向高回报轨迹（如 p(τ)∝exp(E(τ)/temperature))
局限：采样步数多（>50步），实时性差；依赖预定义奖励函数，不适用于复杂偏好对齐任务
代表工作：
- Diffuser：在Maze2D任务中生成全局路径，解决长时程稀疏奖励问题
- EDIS：引入能量函数动态调整采样分布，弥合离线与在线数据差异，在AntMaze任务提升20%性能

2️⃣ Decision Diffuser：多条件引导的决策生成

核心思想：扩展Diffuser，支持多条件生成（如目标状态、奖励函数、人类偏好）。通过分类器无关引导（CFG）动态融合条件信息，生成多样化策略
创新点：
- 条件解耦：将目标、奖励等条件作为独立引导信号，增强策略灵活性
- 自适应重评估（DIAR）：动态调整规划长度，比较当前与未来状态价值，平衡长短期决策
局限：仍依赖轨迹级生成，计算开销大；需预训练扩散模型。
代表工作：
- Decision Diffuser：在厨房多任务环境中，通过目标条件化生成洗碗、开关柜等动作序列，成功率超传统RL 50%
- DIAR：结合扩散模型与隐式Q学习，在AntMaze任务中实现SOTA，解决分布外动作问题

3️⃣ Diffusion Policy：端到端的动作生成策略

核心思想：直接建模状态→动作的映射 p(a∣s)，将扩散模型作为策略网络输出多峰动作分布，替代传统高斯策略
创新点：
- 多峰动作建模：解决行为克隆中数据冲突问题（如"左右为难"场景）
- 高效采样优化：通过蒸馏（Consistency Models）、低步数采样（5步）提升实时性
局限：在线训练困难（PPO/DPO无法直接应用）；离散动作支持弱
代表工作：
- Diffusion Policy：双臂机器人抓取任务中学习多种最优解（如不同抓握位姿），多样性远超高斯策略
- Curiosity-Diffuser：用RND好奇心模块约束动作分布，减少未知状态幻觉，在CS:GO游戏鼠标控制中提升可靠性

四、核心差异点

维度	Diffuser	Decision Diffuser	Diffusion Policy
建模对象	状态轨迹（State Trajectory）	状态-动作序列（State-Action Sequence）	动作分布（Action Distribution）
决策方式	生成全局轨迹后提取动作（规划→控制分离）	条件化生成完整动作序列（目标/奖励引导）	状态→动作的直接映射（端到端控制）
核心创新	首创扩散模型规划，用能量函数引导采样	引入分类器无关引导（CFG）实现多条件控制	直接建模动作分布，解决行为克隆的"多峰冲突"
训练目标	拟合状态转移概率 p(s0:T)	联合优化状态-动作分布 p(s0:T,a0:T)	学习条件动作分布 p(at∣st)
实时性	低（约1Hz），需50+步采样	中（约5-10Hz）	高（可达122Hz），支持5步快速采样
典型场景	全局路径规划（仓储物流）	稀疏奖励任务（厨房多步骤操作）	实时控制（机械臂抓取、游戏AI）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。