斗地主(DouDizhu)是一种流行的三人纸牌游戏,其特点是竞争与合作并存、信息不完全、状态空间巨大且动作空间复杂。尽管现代强化学习算法在许多游戏中取得了显著的进展,但在斗地主这一领域,现有算法表现不尽如人意。本文介绍了一个概念上简单但有效的斗地主AI系统——DouZero,它通过增强传统的蒙特卡罗方法,结合深度神经网络、动作编码和并行执行者,从零开始进行训练,最终在多个排行榜上取得了卓越的成绩。
引言
游戏常常被用作人工智能(AI)研究的基准,因为它们是许多现实世界问题的抽象。围棋、德州扑克等完美信息和不完美信息游戏中,AI已经取得了显著进展。然而,斗地主作为一个流行的三人纸牌游戏,至今仍未被完全解决。这是因为斗地主不仅需要玩家在信息不完全的环境下进行竞争和合作,还具有巨大的状态空间和复杂的动作空间。
现有的强化学习算法主要集中在简单和小动作空间的游戏上,而在斗地主这样复杂的游戏中,表现并不理想。例如,深度Q学习(DQN)在大动作空间中会出现过估计问题,而策略梯度方法如A3C,则难以利用斗地主中的动作特征。
深度蒙特卡罗方法
传统的蒙特卡罗方法通过平均样本回报来进行策略优化。具体过程如下:
- 使用当前策略生成一个完整的游戏回合。
- 对每个状态-动作对,计算并更新其回报的平均值。
- 更新策略,使其在每个状态下选择回报最大的动作。
这种方法可以结合深度神经网络,从而形成深度蒙特卡罗方法(DMC)。与Q学习不同,DMC直接近似真实的Q值,避免了过估计问题。此外,通过对动作进行编码,