强化学习基础与深度Q网络详解

### 强化学习基础与深度Q网络详解 #### 1. 强化学习基本定义在强化学习中，总是存在一个由时间 $t$ 时的状态 $s_t$ 描述的环境。这个状态包含了智能体在选择下一个动作时可用的所有信息。例如，在国际象棋游戏中，$s_t$ 就是时间 $t$ 时棋盘上所有棋子的位置。智能体的任务是选择一个动作 $a_t$，比如移动一枚棋子。执行动作 $a_t$ 后，环境会发生变化，产生一个新的状态 $s_{t + 1}$（可能只是部分描述）。此外，还会有一个奖励 $r_{t + 1}$，这是一个实数，例如分数或金钱数额。在国际象棋中，下一个状态 $s_{t + 1}$ 是对手移动棋子后的棋盘位置，奖励可能是 “赢”（+1）、“输”（-1）、“平局”（0）或 “游戏未完成”（0），奖励也可以取负值。一系列观察到的状态、奖励和动作的三元组 $(s_1, r_1, a_1), (s_2, r_2, a_2), \cdots, (s_T, r_T, a_T)$ 被称为一个回合（episode），它可以由一个终止状态结束。环境可以有不同的特性： - **确定性环境**：行为完全可预测。在这种情况下，状态 - 动作对 $(s_t, a_t)$ 总是会导致相同的后续状态 $s_{t + 1}$ 和相同的奖励 $r_{t + 1}$，例如简单的机器人控制问题。 - **随机环境**：后续状态 $s_{t + 1}$ 和奖励 $r_{t + 1}$ 受随机效应影响，遵循条件分布 $p(s_{t + 1}, r_{t + 1}|s_t, a_t)$。这意味着相同的动作对 $(s_t, a_t)$ 可能导致不同的后续状态，这也包括系统信息不完整或存在智能对手的情况。强化学习必须解决三个主要挑战： - **动作 - 奖励关系**：需要找出在一个回合中各个动作如何影响奖励。 - **探索 - 利用平衡**：系统必须决定是专注于当前有望获得高奖励的游戏情况，还是探索其他未知的游戏情况，因为那里可能获得更高的奖励。 - **函数逼近**：在实际应用中，由于状态数量庞大，不可能精确表示状态、动作和奖励之间的关系。因此，必须用一个模型来逼近这种关系，这通常会导致额外的误差。为了评估动作对未来奖励的影响，系统必须预测动作的影响。因此，强化学习系统必须具备 “预测学习” 的能力。强化学习会识别回合中的模式，预测未来奖励并选择动作。用户必须设定一个目标，强化学习通过试错向目标前进。强化学习的历史如下： |时间|事件| | ---- | ---- | |早期|Marvin Minsky 的 SNARC 系统，包含由电线、电子管和继电器制成的 “神经元”，能够在迷宫中跟踪 “老鼠”| | |Shakey 是第一个能够规划自己动作的移动机器人，它结合了机器人技术、图像识别和语音处理知识| |1988 年|Dickmanns 以梅赛德斯面包车为基础进行自动驾驶，通过摄像头和其他传感器，系统能够以高达 96 公里/小时的速度完全自主驾驶| |1989 年|Watkins 开发了 Q - 学习，通过表格或函数表示给定状态下动作的优劣| |1992 年|Tesauro 引入了 TD - Gammon 算法，通过神经网络计算动作的性能，并通过自我对弈进行训练| |20 世纪 90 年代|IBM 开发了深蓝国际象棋计算机，每秒能够评估 1.26 亿个位置，并击败了世界国际象棋冠军卡斯帕罗夫| |2005 年|Thrun 在 DARPA 组织的 212 公里自动驾驶汽车比赛中获胜| |2017 年|AlphaGo 程序击败了世界顶尖职业围棋选手韩国的李世石| #### 2. 深度Q网络 ##### 2.1 最大化奖励总和的策略智能体的行为由策略 $\pi$ 决定，它为每个状态 $s_t$ 分配一个动作，即函数 $\pi: s_t \to a$。对于一个回合 $(s_1, r_1, a_1), (s_2, r_2, a_2), \cdots, (s_n, r_n, a_n)$，策略 $\pi$ 产生的奖励总和为 $G_1(\pi) = r_1 + r_2 + \cdots + r_n$，其中奖励 $r_t$ 取决于先前的状态 $s_{t - 1}$ 和选择的动作 $a_{t - 1}$，因此也取决于策略 $\pi$。学习的目标是找到一个策略 $\pi^*$，使得 $G_1(\pi^*) = \max_{\pi} G_1(\pi)$，即获得最大的奖励总和。 ##### 2.2 小型导航任务考虑一个小型导航任务，机器人需要到达目的地，目的地由正奖励指示。环境由方形区域组成，机器人可以在游戏区域内上下左右移动一步。机器人在白色区域获得 0 分。如果机器人到达有硬币的区域，导航结束，获得奖励 1；如果到达有骷髅的区域，导航也结束，获得奖励 -1。如果优化标准是 $G_1(\pi)$，那么只要机器人避免骷髅并最终到达硬币区域，任何 $G_1(\pi) = 1$ 的路线都是最优的。例如，机器人可以在左侧区域随意移动，最终到达硬币区域，最终奖励仍然是 $G_1(\pi) = 1$。 ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px A([起点]):::startend --> B(白色区域):::process B --> C(白色区域):::process ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

强化学习基础与深度Q网络详解

相关推荐

专栏目录

强化学习基础与深度Q网络详解

相关推荐

强化学习数学基础详解：从基本概念到深度Q学习的应用（RL理论与实践）

深度强化学习各算法详解及 Pytorch 实现方法 深度强化学习各类算法介绍与 Pytorch 实现方式 深度强化学习各算法的介绍及 Pytorch 实现详解 深度强化学习不同算法介绍与 Pytorc

MATLAB 实现基于深度Q网络（DQN）进行时间序列预测模型的项目详细实例（含完整的程序，GUI设计和代码详解）

深度Q学习网络(DQN)详解：强化学习的高效解决方案

深度学习与深度强化学习算法实现详解

强化学习基础与应用原理详解

深度强化学习详解与Yuxi Li研究

强化学习基础教程：核心算法详解与代码实践

强化学习基础：Q学习与深度Q网络（DQN）

Udacity深度强化学习课程详解与实践

软件工程毕业论文模版.docx

专栏目录

最新推荐

利用GARCH模型变体进行股票市场预测中的情感分析实现

数据在不同部门的应用与挑战及后续提升建议

打造与分享Excel仪表盘：设计、保护与部署全攻略

数据分析与分层模型解读

软件定义网络的数据可视化与负载均衡实验

数据可视化：工具与Python库的综合指南

数据可视化：静态与交互式的优劣及团队模式分析

数据科学家绩效评估方法解析

基于文本的关系提取与知识图谱构建

Rasa开发：交互式学习、调试、优化与社区生态

深度强化学习各算法详解及 Pytorch 实现方法深度强化学习各类算法介绍与 Pytorch 实现方式深度强化学习各算法的介绍及 Pytorch 实现详解深度强化学习不同算法介绍与 Pytorc