论文阅读的附录(四):Diffusion policy: Visuomotor policy learning via action diffusion:Diffusion Policy 为什么更稳定

文章概括

引用:

@article{
   
   chi2023diffusion,
  title={
   
   Diffusion policy: Visuomotor policy learning via action diffusion},
  author={
   
   Chi, Cheng and Feng, Siyuan and Du, Yilun and Xu, Zhenjia and Cousineau, Eric and Burchfiel, Benjamin and Song, Shuran},
  journal={
   
   arXiv preprint arXiv:2303.04137},
  year={
   
   2023}
}
Chi, C., Feng, S., Du, Y., Xu, Z., Cousineau, E., Burchfiel, B. and Song, S., 2023. Diffusion policy: Visuomotor policy learning via action diffusion. arXiv preprint arXiv:2303.04137.

原文:https://arxiv.org/abs/2303.04137
代码、数据和视频:https://diffusion-policy.cs.columbia.edu/


文章解析原文:
https://blog.csdn.net/xzs1210652636/article/details/142500842


1. 背景:EBM 里的归一化常数 Z ( o , θ ) Z(\mathbf{o}, \theta) Z(o,θ)

在基于能量的模型(EBM)中,我们有

p θ ( a ∣ o ) = exp ⁡ [ −   E θ ( o , a ) ] Z ( o , θ ) , p_\theta(\mathbf{a}\mid \mathbf{o}) = \frac{\exp[-\,E_\theta(\mathbf{o}, \mathbf{a})]}{Z(\mathbf{o}, \theta)}, pθ(ao)=Z(o,θ)exp[Eθ(o,a)],
其中

  • E θ ( o , a ) E_\theta(\mathbf{o}, \mathbf{a}) Eθ(o,a) 是能量函数,数值越低表示 a \mathbf{a} a越可能是“好动作”;
  • Z ( o , θ ) Z(\mathbf{o}, \theta) Z(o,θ) 是针对动作 a \mathbf{a} a 的积分或求和,用于归一化,让 p θ ( a ∣ o ) p_\theta(\mathbf{a}\mid \mathbf{o}) pθ(ao) 成为合法的概率分布(各动作的概率和为 1)。

难点 Z ( o , θ ) Z(\mathbf{o}, \theta) Z(o,θ)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值