基于PyTorch的强化学习实战：GridWorld游戏中的Actor-Critic算法实现-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00074/article/details/148524269

基于PyTorch的强化学习实战：GridWorld游戏中的Actor-Critic算法实现

practical-pytorch Go to https://github.com/pytorch/tutorials - this repo is deprecated and no longer maintained 项目地址: https://gitcode.com/gh_mirrors/pr/practical-pytorch

项目概述

本项目使用PyTorch框架实现了一个强化学习解决方案，让智能体在GridWorld环境中学习最优策略。GridWorld是一个经典的网格环境，智能体需要通过探索找到目标位置，同时避开负面奖励区域。项目采用了Actor-Critic算法结合REINFORCE策略梯度方法，展示了如何在实际问题中应用这些强化学习技术。

核心概念解析

GridWorld环境设计

GridWorld环境包含以下几个关键元素：

网格结构：一个8x8的网格世界，周围有边界墙
植物资源：随机分布在网格中的植物，提供不同数值的奖励（-1到0.5之间）
目标位置：位于四个角落之一，提供+10的奖励
边界惩罚：碰到边界会获得-10的惩罚
视野限制：智能体只能看到周围1格范围内的环境

智能体设计

智能体具有以下特性：

生命值：初始为1，每步减少0.02
移动能力：可以上下左右移动
奖励机制：吃到植物增加生命值，到达目标获得胜利，生命值归零则失败

技术实现详解

神经网络架构

项目使用了一个简单的神经网络作为策略函数（Policy Network），结构如下：

class Policy(nn.Module):
    def __init__(self, hidden_size):
        super(Policy, self).__init__()
        visible_squares = (VISIBLE_RADIUS * 2 + 1) ** 2
        input_size = visible_squares + 1 + 2  # 视野区域+生命值+位置坐标
        
        self.inp = nn.Linear(input_size, hidden_size)
        self.out = nn.Linear(hidden_size, 4 + 1)  # 4个动作+1个价值估计

网络输入包括：

智能体周围的可见区域（3x3网格）
当前生命值
归一化的位置坐标

网络输出分为两部分：

4个动作的概率分布（上、右、下、左）
当前状态的价值估计

动作选择策略

def select_action(e, state):
    drop = interpolate(e, DROP_MAX, DROP_MIN, DROP_OVER)
    
    state = Variable(torch.from_numpy(state).float())
    scores, value = policy(state)
    scores = F.dropout(scores, drop, True)  # 使用dropout实现探索
    scores = F.softmax(scores)
    action = scores.multinomial()  # 根据概率分布采样动作
    
    return action, value

这里采用了ε-greedy策略的变体，通过dropout实现探索。随着训练进行，dropout率逐渐降低（从0.3降到0.05），使智能体从探索转向利用。

REINFORCE算法实现

def finish_episode(e, actions, values, rewards):
    # 计算折扣回报
    discounted_rewards = []
    R = 0
    for r in rewards[::-1]:
        R = r + gamma * R
        discounted_rewards.insert(0, R)
    
    # 使用Critic的价值作为基线
    value_loss = 0
    for action, value, reward in zip(actions, values, discounted_rewards):
        reward_diff = reward - value.data[0]
        action.reinforce(reward_diff)  # REINFORCE更新
        value_loss += mse(value, Variable(torch.Tensor([reward])))
    
    # 反向传播
    optimizer.zero_grad()
    nodes = [value_loss] + actions
    gradients = [torch.ones(1)] + [None for _ in actions]
    autograd.backward(nodes, gradients)
    optimizer.step()

这里实现了带有基线的REINFORCE算法：