DouZero：通过自对弈深度强化学习掌握斗地主

步子哥

已于 2024-06-30 11:30:01 修改

阅读量668

点赞数 15

CC 4.0 BY-SA版权

分类专栏： AGI通用人工智能文章标签：人工智能

于 2024-06-28 21:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140047195

AGI通用人工智能专栏收录该内容

1567 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

斗地主（DouDizhu）是一种流行的三人纸牌游戏，其特点是竞争与合作并存、信息不完全、状态空间巨大且动作空间复杂。尽管现代强化学习算法在许多游戏中取得了显著的进展，但在斗地主这一领域，现有算法表现不尽如人意。本文介绍了一个概念上简单但有效的斗地主AI系统——DouZero，它通过增强传统的蒙特卡罗方法，结合深度神经网络、动作编码和并行执行者，从零开始进行训练，最终在多个排行榜上取得了卓越的成绩。

引言

游戏常常被用作人工智能（AI）研究的基准，因为它们是许多现实世界问题的抽象。围棋、德州扑克等完美信息和不完美信息游戏中，AI已经取得了显著进展。然而，斗地主作为一个流行的三人纸牌游戏，至今仍未被完全解决。这是因为斗地主不仅需要玩家在信息不完全的环境下进行竞争和合作，还具有巨大的状态空间和复杂的动作空间。

现有的强化学习算法主要集中在简单和小动作空间的游戏上，而在斗地主这样复杂的游戏中，表现并不理想。例如，深度Q学习（DQN）在大动作空间中会出现过估计问题，而策略梯度方法如A3C，则难以利用斗地主中的动作特征。

深度蒙特卡罗方法

传统的蒙特卡罗方法通过平均样本回报来进行策略优化。具体过程如下：

使用当前策略生成一个完整的游戏回合。
对每个状态-动作对，计算并更新其回报的平均值。
更新策略，使其在每个状态下选择回报最大的动作。

这种方法可以结合深度神经网络，从而形成深度蒙特卡罗方法（DMC）。与Q学习不同，DMC直接近似真实的Q值，避免了过估计问题。此外，通过对动作进行编码，

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

步子哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。