文章目录
前言
这篇文章介绍了三种迁移方法,来通过课程学习加速。然后提出了一个新的架构DyAN,使得模型与agent数目无关。
一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论。将CL应用在RL上一个重要的方向是如何解决持续增长的复杂任务,这也是CL应用在RL上的目的。另一个CL的重要方向是自动设计课程。目前多智能体上应用CL的算法都很简单,比如Agarwal他们就是单纯的增加agent的数量,将之前的策略作为initialization。这篇文章也就是提出简单的迁移机制加速CL,DyAN的结构和Agarwal的有点相似,个人感觉创新性不大。
背景
POSG
将问题建模为局部可观察随机博弈(POSG),通过元组 ⟨ N , S , A 1 , ⋯ , A n , T , R 1 , ⋯ , R n , O 1 , ⋯ , O n ⟩ \left \langle \mathcal{N,S,A^1,\cdots,A^n,}T,\mathcal{R^1,\cdots,R^n,O^1,\cdots,O^n} \right \rangle ⟨N,S,A1,⋯,An,T,R1,⋯,Rn,O1,⋯,On⟩ 定义。
agent i i i 在step t t t 的观察可以构建为 o t i = { o t i , e n v , m t i , o t i , 1 , ⋯ , o t i , i − 1 , o t i , i + 1 , ⋯ , o t i , n } o_t^i=\{o_t^{i,env},m_t^i,o_t^{i,1},\cdots,o_t^{i,i-1},o_t^{i,i+1},\cdots,o_t^{i,n}\} oti={
o