[AAAI2020] From Few to More: Large-scale Dynamic Multiagent Curriculum Learning 笔记-CSDN博客

本文介绍了如何利用课程学习理论解决大规模多智能体学习问题，提出DyAN架构和三种迁移方法，包括模型重载、缓冲区重用和课程蒸馏，旨在加速学习并应对不断变化的智能体数量。实验表明这些方法在独立学习场景下表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
背景
- POSG
- 课程学习
Method
Experiment

前言

这篇文章介绍了三种迁移方法，来通过课程学习加速。然后提出了一个新的架构DyAN，使得模型与agent数目无关。
一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论。将CL应用在RL上一个重要的方向是如何解决持续增长的复杂任务，这也是CL应用在RL上的目的。另一个CL的重要方向是自动设计课程。目前多智能体上应用CL的算法都很简单，比如Agarwal他们就是单纯的增加agent的数量，将之前的策略作为initialization。这篇文章也就是提出简单的迁移机制加速CL，DyAN的结构和Agarwal的有点相似，个人感觉创新性不大。

背景

POSG

将问题建模为局部可观察随机博弈（POSG），通过元组 $\left \langle \mathcal{N,S,A^1,\cdots,A^n,}T,\mathcal{R^1,\cdots,R^n,O^1,\cdots,O^n} \right \rangle$ 定义。
agent $i$ 在step $t$ 的观察可以构建为 $o_t^i=\{o_t^{i,env},m_t^i,o_t^{i,1},\cdots,o_t^{i,i-1},o_t^{i,i+1},\cdots,o_t^{i,n}\}$