强化学习基础与深度Q网络详解
立即解锁
发布时间: 2025-08-30 00:48:22 阅读量: 4 订阅数: 23 AIGC 

### 强化学习基础与深度Q网络详解
#### 1. 强化学习基本定义
在强化学习中,总是存在一个由时间 $t$ 时的状态 $s_t$ 描述的环境。这个状态包含了智能体在选择下一个动作时可用的所有信息。例如,在国际象棋游戏中,$s_t$ 就是时间 $t$ 时棋盘上所有棋子的位置。
智能体的任务是选择一个动作 $a_t$,比如移动一枚棋子。执行动作 $a_t$ 后,环境会发生变化,产生一个新的状态 $s_{t + 1}$(可能只是部分描述)。此外,还会有一个奖励 $r_{t + 1}$,这是一个实数,例如分数或金钱数额。在国际象棋中,下一个状态 $s_{t + 1}$ 是对手移动棋子后的棋盘位置,奖励可能是 “赢”(+1)、“输”(-1)、“平局”(0)或 “游戏未完成”(0),奖励也可以取负值。
一系列观察到的状态、奖励和动作的三元组 $(s_1, r_1, a_1), (s_2, r_2, a_2), \cdots, (s_T, r_T, a_T)$ 被称为一个回合(episode),它可以由一个终止状态结束。
环境可以有不同的特性:
- **确定性环境**:行为完全可预测。在这种情况下,状态 - 动作对 $(s_t, a_t)$ 总是会导致相同的后续状态 $s_{t + 1}$ 和相同的奖励 $r_{t + 1}$,例如简单的机器人控制问题。
- **随机环境**:后续状态 $s_{t + 1}$ 和奖励 $r_{t + 1}$ 受随机效应影响,遵循条件分布 $p(s_{t + 1}, r_{t + 1}|s_t, a_t)$。这意味着相同的动作对 $(s_t, a_t)$ 可能导致不同的后续状态,这也包括系统信息不完整或存在智能对手的情况。
强化学习必须解决三个主要挑战:
- **动作 - 奖励关系**:需要找出在一个回合中各个动作如何影响奖励。
- **探索 - 利用平衡**:系统必须决定是专注于当前有望获得高奖励的游戏情况,还是探索其他未知的游戏情况,因为那里可能获得更高的奖励。
- **函数逼近**:在实际应用中,由于状态数量庞大,不可能精确表示状态、动作和奖励之间的关系。因此,必须用一个模型来逼近这种关系,这通常会导致额外的误差。
为了评估动作对未来奖励的影响,系统必须预测动作的影响。因此,强化学习系统必须具备 “预测学习” 的能力。强化学习会识别回合中的模式,预测未来奖励并选择动作。用户必须设定一个目标,强化学习通过试错向目标前进。
强化学习的历史如下:
|时间|事件|
| ---- | ---- |
|早期|Marvin Minsky 的 SNARC 系统,包含由电线、电子管和继电器制成的 “神经元”,能够在迷宫中跟踪 “老鼠”|
| |Shakey 是第一个能够规划自己动作的移动机器人,它结合了机器人技术、图像识别和语音处理知识|
|1988 年|Dickmanns 以梅赛德斯面包车为基础进行自动驾驶,通过摄像头和其他传感器,系统能够以高达 96 公里/小时的速度完全自主驾驶|
|1989 年|Watkins 开发了 Q - 学习,通过表格或函数表示给定状态下动作的优劣|
|1992 年|Tesauro 引入了 TD - Gammon 算法,通过神经网络计算动作的性能,并通过自我对弈进行训练|
|20 世纪 90 年代|IBM 开发了深蓝国际象棋计算机,每秒能够评估 1.26 亿个位置,并击败了世界国际象棋冠军卡斯帕罗夫|
|2005 年|Thrun 在 DARPA 组织的 212 公里自动驾驶汽车比赛中获胜|
|2017 年|AlphaGo 程序击败了世界顶尖职业围棋选手韩国的李世石|
#### 2. 深度Q网络
##### 2.1 最大化奖励总和的策略
智能体的行为由策略 $\pi$ 决定,它为每个状态 $s_t$ 分配一个动作,即函数 $\pi: s_t \to a$。对于一个回合 $(s_1, r_1, a_1), (s_2, r_2, a_2), \cdots, (s_n, r_n, a_n)$,策略 $\pi$ 产生的奖励总和为 $G_1(\pi) = r_1 + r_2 + \cdots + r_n$,其中奖励 $r_t$ 取决于先前的状态 $s_{t - 1}$ 和选择的动作 $a_{t - 1}$,因此也取决于策略 $\pi$。学习的目标是找到一个策略 $\pi^*$,使得 $G_1(\pi^*) = \max_{\pi} G_1(\pi)$,即获得最大的奖励总和。
##### 2.2 小型导航任务
考虑一个小型导航任务,机器人需要到达目的地,目的地由正奖励指示。环境由方形区域组成,机器人可以在游戏区域内上下左右移动一步。
机器人在白色区域获得 0 分。如果机器人到达有硬币的区域,导航结束,获得奖励 1;如果到达有骷髅的区域,导航也结束,获得奖励 -1。
如果优化标准是 $G_1(\pi)$,那么只要机器人避免骷髅并最终到达硬币区域,任何 $G_1(\pi) = 1$ 的路线都是最优的。例如,机器人可以在左侧区域随意移动,最终到达硬币区域,最终奖励仍然是 $G_1(\pi) = 1$。
```mermaid
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A([起点]):::startend --> B(白色区域):::process
B --> C(白色区域):::process
```
0
0
复制全文
相关推荐









