强化学习中的抽象与泛化:方法、实验与应用
立即解锁
发布时间: 2025-08-20 00:31:00 阅读量: 1 订阅数: 2 


自适应与学习代理:ALA 2009精选论文
# 强化学习中的抽象与泛化:方法、实验与应用
## 1. 反应式导航任务概述
反应式导航任务涉及农民(自适应代理)移动到目标位置,同时躲避随机巡逻的敌方士兵。该任务的相关属性包括农民、士兵和目标的位置,这三个对象都可位于 1024 个位置中的任意一处。若采用命题格式描述状态空间,每个状态会被描述为一个特征向量,包含环境的各种可能属性,这样会产生 230 种不同状态。这种方式下,值函数的表格表示过于庞大,且不利于学习算法的泛化。例如,学会移动到特定网格单元的策略无法用于移动到其他单元。
而指示性状态表示通过相对于代理识别对象,降低了状态空间的复杂度并促进泛化。此任务复杂的原因有:一是无抽象处理时状态空间巨大;二是游戏状态会受敌方单位影响(敌方在未看到农民时随机移动,看到则朝农民移动);三是每个新任务实例随机生成,农民需学习能泛化到未见过任务实例的策略。
## 2. 解决反应式导航任务的方法
### 2.1 扁平强化学习(Flat RL)
扁平表示中,指示性状态表示可定义为以下四个特征的笛卡尔积:Distance(enemy, s)、Distance(goal, s)、DirectionTo(enemy, s) 和 DirectionTo(goal, s)。Distance 函数返回 1 到 8 之间的数字或表示对象在状态 s 中距离超过 8 步的字符串,DirectionTo 函数返回在状态 s 中相对于给定对象的方向。使用 8 种可能的 DirectionTo 值(八个罗盘方向)和 9 种可能的 Distance 值,状态空间从 230 大幅减少到 5184 个状态。动作空间大小为 8,包含向八个罗盘方向移动的动作。
标量奖励信号 R(s, a) 应反映实现两个并发子目标(朝目标移动并躲避敌人)的相对成功程度。当代理位于目标位置时,环境返回 +10 奖励;当代理在敌方射击范围内(即 5 步内)被敌方射击时,返回 -10 奖励;每个原始动作始终产生 -1 奖励。但两个子目标常相互竞争,代理一次只能采取一个动作。
### 2.2 分层强化学习(HRL)
分层表示将原始任务分解为两个独立解决单个子目标的简单子任务:
- **到目标子任务**:负责导航到目标位置,其状态空间包括 Distance(goal, s) 和 DirectionTo(goal, s) 特征。
- **躲避敌人子任务**:负责躲避敌方单位,状态空间包括 Distance(enemy, s) 和 DirectionTo(enemy, s) 特征。
两个子任务的动作空间都包含向所有罗盘方向移动的原始动作。它们在更高级别的导航任务中分层组合,该任务的状态空间由 InRange(goal, s) 和 InRange(enemy, s) 特征表示,动作空间由两个可像原始动作一样调用的子任务组成。InRange 函数在状态 s 中到对象的距离为 8 或更小时返回 true,否则返回 false。
两个子任务在根级别状态改变时终止,如敌人(或目标)从范围内变为范围外或反之。当代理完成子任务时,为两个子任务设置伪奖励 +100,否则为 0。导航任务永不终止,但原始子任务执行后总是终止。两个子任务的状态空间大小为 72,导航任务为 4,因此分层表示的状态空间复杂度约为扁平表示的 1/35。此外,分层设置可拆分奖励信号,使子任务奖励不相互干扰。
### 2.3 实验结果
实验评估了扁平 RL 和 HRL 在反应式导航任务中的性能。步长和折扣率参数分别设置为 0.2 和 0.7。对到目标和躲避敌人子任务采用比导航任务更多的探索,前者使用具有相对较高(但衰减)温度的玻尔兹曼动作选择,后者使用 ε - 贪心动作选择(ε 设为 0.1)。
“试验”持续 30 个情节,情节在自适应代理被摧毁或达到固定时间限制时终止。训练期间生成随机任务实例,每次试验后在由五个固定任务实例组成的测试集上测试当前策略。通过评估贪心策略,统计自适应代理成功到达目标位置的次数来衡量策略性能。实验进行 1500 个训练情节(50 次试验),重复五次并取平均结果。
结果表明,两种方法都随经验提升性能,但 HRL 表示的学习效果优于扁平表示。HRL 通过使用更多抽象,更紧凑地表示策略,学习速度更快,且更适合处理并发和竞争子任务,即使扁平 RL 经过大量学习,HRL 仍可能实现更高的整体性能。
## 3. 关系强化学习(RRL)
### 3.1 基本概念
关系强化学习(RRL)将强化学习设置与关系学习或归纳逻辑编程(ILP)相结合,使用识别状态、动作和策略的结构和关系来表示它们。这种结构表示允许对特定目标、状态和动作进行泛化,因为 RRL 算法尝试在抽象层面解决问题,其解决方案通常可应用于该抽象问题的不同实例。例如,RRL 系统学习的策略常能泛化到具有不同数量现有对象的领域。
### 3.2 示例:积木世界
在积木世界中,多个具有不同属性(大小、颜色等)的积木相互堆叠或放在地板上。可能的动作包括将一个无上方积木的“清晰”积木移动到另一个清晰积木或地板上。用命题表示无法在不使状态数量呈指数级增长的情况下表示此类世界状态。例如,在一阶逻辑(FOL)中,某个状态 s 可表示为 {on(s, c, floor) ∧ clear(s, c) ∧ on(s, d, floor) ∧ on(s, b, d) ∧ on(s, a, b) ∧ clear(s, a) ∧ on(s, e, floor) ∧ clear(s, e)}。
关系学习方法的重要好处之一是可对状态、动作、对象进行泛化,且可选择性抽象不太重要的部分。如假设所有积木有大小属性,可表示为“存在一个小积木在大积木上”(∃B1, B2 : block(B1, small, ), block(B2, large, ), on(B1, B2)),其中 B1 和 B2 是自由变量,可由环境中的任何积木实例化。RRL 可对积木进行泛化,学习可变数量对象的策略,而不必受“维度诅咒”影响。
### 3.3 关系 Q - 学习算法
关系 Q - 学习是 RRL 中最早开发的方法之一,其行为与标准 Q - 学习类似,但适应 RRL 表示。在关系强化学习中,表示包含环境的结构或关系信息。关系 Q - 学习采用关系回归算法对策略空间进行泛化,学习示例存储为元组 (a, s, Q(s, a)),由增量关系回归算法处理以生成关系值函数或策略。
以下是关系强化学习算法:
```plaintext
REQUIRE initialize Q(s, a) and s0 arbitrarily;
1. e ← 0;
2. repeat {for each episode}
3. Examples ← ∅;
4. i ← 0;
5. repeat {for each step ∈ episode}
6. take a for s using policy π(s) and observe r and s′;
7. Q(a, s) → (1 − α)Q(a, s) + α [r + γ max a′ Q(a′, s′)];
8. Examples ← Examples ∪ {a, s, Q(s, a)};
9. i ← i + 1;
10. until si is terminal ;
11. Update ˆQe using Examples and a relational regression algorithm to produce ˆQe+1;
12. e ← e + 1;
13. until done ;
```
### 3.4 应用于多智能体系统
RRL 在多智能体系统中有积极应用。使用状态空间的关系表示具有诸多好处,如处理大状态空间、使用丰富的关系语言、在无计算爆炸的情况下建模其他智能体(对智能体策略进行泛化)以及对新推导知识进行泛化。研究表明,RRL 可通过对状态、动作和智能体策略进行泛化,有效处理大状态空间。
### 3.5 状态变量对比表
|描述|3 vs. 2 状态变量|4 vs. 3 状态变量|
| ---- | ---- | ---- |
|dist(K1, C)|dist(K1, C)|dist(K1, C)|
|dist(K1, K2)|dist(K1, K2)|dist(K1, K2)|
|dist(K1, K3)|dist(K1, K3)|dist(K1, K3)|
|dist(K1, K4)||dist(K1, K4)|
|dist(K1, T1)|dist(K1, T1)|dist(K1, T1)|
|dist(K1, T2)|dist(K1, T2)|dist(K1, T2)|
|dist(K1, T3)||dist(K1, T3)|
|dist(K2, C)|dist(K2, C)|dist(K2, C)|
|dist(K3, C)|dist(K3, C)|dist(K3, C)|
|dist(K4, C)||dist(K4, C)|
|dist(T1, C)|dist(T1, C)|dist(T1, C)|
|dist(T2, C)|dist(T2, C)|dist(T2, C)|
|dist(T3, C)||dist(T3, C)|
|Min(dist(K2, T1), dist(K2, T2))|Min(dist(K2, T1), dist(K2, T2))|Min(dist(K2, T1), dist(K2, T2), dist(K2, T3))|
|Min(dist(K3, T1), dist(K3, T2))|Min(dist(K3, T1), dist(K3, T2))|Min(dist(K3, T1), dist(K3, T2), dist(K3, T3))|
|Min(dist(K4, T1), dist(K4, T2), dist(K4, T3))||Min(dist(K4, T1), dist(K4, T2), dist(K4, T3))|
|Min(ang(K2, K1, T1), ang(K2, K1, T2))|Min(ang(K2, K1, T1), ang(K2, K1, T2))|Min(ang(K2, K1, T1), ang(K2, K1, T2), ang(K2, K1, T3))|
|Min(ang(K3, K1, T1), ang(K3, K1, T2))|Min(ang(K3, K1, T1), ang(K3, K1, T2))|Min(ang(K3, K1, T1), ang(K3, K1, T2), ang(K3, K1, T3))|
|Min(ang(K4, K1, T1), ang(K4, K1, T2), ang(K4, K1, T3))||Min(ang(K4, K1, T1), ang(K4, K1, T2), ang(K4, K1, T3))|
## 4. 迁移学习(Transfer Learning)
### 4.1 迁移学习背景
强化学习代理的所有迁移学习算法都使用一个或多个源任务,以在目标任务中比不利用源任务信息时更好地学习。迁移技术具有不同程度的自主性并做出多种假设,例如,源任务和目标任务在马尔可夫决策过程(MDP)的各个部分(转移函数 T、奖励函数 R、存在的状态、代理可执行的动作以及代理表示世界的方式)可能存在差异。
人类对迁移的使用在心理学文献中已研究多年,机器学习任务间的顺序迁移可在使用更少数据的情况下学习性能更高的分类器,同时学习多个任务也可使分类器捕捉更多领域结构,表现优于单独训练和测试的分类器。
### 4.2 迁移作为泛化
泛化是机器学习的核心,在强化学习中,连续动作空间里代理很少多次访问同一状态,需不断泛化先前数据以预测行动。迁移学习可视为一种不同类型的泛化,代理需跨任务泛化知识。常见的迁移方法策略有:一是在源任务中学习一些低级信息,然后用这些信息更好地引导目标任务的学习;二是学习对一般领域适用的知识,而不考虑具体任务。
### 4.3 示例领域:Keepaway
Keepaway 是展示强化学习任务中迁移学习的流行领域,是 11 vs. 11 模拟足球的子任务,使用 RoboCup 足球服务器模拟物理机器人的传感器和执行器噪声。通常,n 个队友(控球方)尝试在小场地内控制球,n - 1 个队友(抢球方)尝试夺球或把球踢出界。控球方学习时,抢球方遵循固定策略,只有持球的控球方可以智能选择动作,无球控球方总是执行 getopen 动作以移动到可接球区域。
控球方通过选择执行 hold ball 动作(尝试保持控球)或传球给队友来延长每局平均时长。在 3 vs. 2 Keepaway 中,有三个控球方和两个抢球方,持球控球方有 3 个宏观动作(持球、传给最近队友、传给第二近队友),用 13 个(旋转不变)状态变量表示状态,这也是一种指示性表示。4 vs. 3 Keepaway 任务更难学习,动作更多(持球控球方有 4 个动作),状态表示更复杂(由 19 个状态变量描述),且传球更频繁,增加了丢球风险。
### 4.4 迁移目标
- 一是假设控球方已在源任务训练,将源任务训练视为沉没成本,利用源任务信息在目标任务中更好/更快地学习,优于忽略源任务知识的学习方式。
- 二是明确考虑源任务训练时间,即学习源任务、迁移知识后,在目标任务中的学习效果比直接在目标任务训练更好/更快。
### 4.5 迁移低级信息
#### 4.5.1 忽略新结构
从 3 vs. 2 迁移到 4 vs. 3 时,一种方法是在源任务中学习 Q 值函数,然后复制到目标任务,忽略新的状态变量和动作。例如,4 vs. 3 中的 hold 动作可视为与 3 vs. 2 中的 hold 动作相同,4 vs. 3 中的 pass to closest teammate 和 pass to second closest teammate 动作也可视为与 3 vs. 2 中的相同,而忽略 4 vs. 3 中的 pass to third closest teammate 动作。
Q - 值重用(Q - value Reuse)方法采用此策略,结果表明,训练 3 vs. 2 任务后保存的 Q 值可通过忽略新状态变量和动作,直接用于 4 vs. 3 任务。源任务的动作值函数作为目标任务的初始偏差,通过 SARSA 学习随时间改进(学习新动作的 Q 值并改进现有 Q 值)。实验结果显示,源任务知识可成功重用,且通过迁移可减少总训练时间。
Lazaric 等人的方法也关注迁移低级信息,学习一个或多个源任务后,在目标任务中收集经验,比较源任务和目标任务的实例,将相似的源任务实例迁移到目标任务,使用批量学习算法(Fitted Q - 迭代)结合源实例和目标实例以获得更高总奖励。
区域迁移(Region transfer)按样本计算目标任务与不同源任务的相似度,若源任务状态空间的不同区域与目标更相似,则仅迁移这些区域的数据,目标任务中全新的区域不使用源任务数据。
#### 4.5.2 映射新结构
任务间映射(Inter - task mappings)允许迁移学习算法明确指出两个任务中不同状态变量和动作之间的关系。例如,将 4 vs. 3 中的 pass to third closest teammate 动作映射到 3 vs. 2 中的 pass to second closest teammate 动作。正确的任务间映射可使迁移更有效,通过泛化源任务知识到目标任务,初始化目标任务的所有 Q 值,引导学习并显著加快学习速度。Value Function Transfer 方法使用任务间映射,性能优于忽略新状态变量和动作的 Q - 值重用方法。
同态(Homomorphisms)是一种不同的抽象,可基于转移和奖励动态定义 MDP 之间的变换,已成功用于迁移,但发现同态是 NP 难问题。Soni 和 Singh 的工作为代理提供一系列可能的状态变换(潜在同态)和所有动作的任务间映射,代理在源任务正常学习,然后在目标任务中选择随机探索动作或使用现有变换之一根据源任务策略建议的动作,通过 Q - 学习选择最佳状态变量映射并学习目标任务的动作值。Sorg 和 Singh 扩展此思想,学习“软”同态,为源任务状态和目标任务状态相同的情况分配概率,增加灵活性并提供算法性能边界,证明此类映射可学习。
MASTER 算法与 Lazaric 的方法类似,通过使用任务间映射明确处理新状态变量和动作。它通过穷举搜索生成所有可能的任务间映射,选择最能描述源任务和目标任务关系的映射,将源任务数据映射到目标任务并继续学习以改进源任务数据,但目前该方法在 Keepaway 任务中因依赖连续状态变量的模型学习方法而无法扩展。
### 4.6 迁移高级信息
有四种方法可迁移比上述方法更高级的信息,例如将一组动作组合成单个高级宏观动作的选项(option)。目前研究人员尚未很好地量化“高级”和“低级”信息,也未有力论证高级信息在相似领域不同任务中更易泛化,但此说法有一定合理性,是个有趣的开放问题。
#### 4.6.1 基于关系强化学习的迁移
Croonenbourghs 等人先使用 RRL 学习源任务策略,该策略生成状态 - 动作对,用于构建关系决策树,树预测在给定状态下策略将执行的动作,最终生成关系选项,直接用于目标任务,假设任务足够相似无需转换关系选项。
#### 4.6.2 基于不同框架的选项迁移
Konidaris 和 Barto 将问题分为代理空间和问题空间表示,代理空间定义代理在所有问题中固定的能力(如机器人的物理传感器和执行器),可视为一种领域隐藏;问题空间在不同任务间可能变化(如导航任务中的房间配置)。通过假设“预定义显著事件”,代理可学习实现这些事件的选项,选项有助于代理在单个任务中更易达到相关显著事件,还可在一系列任务中训练并重用选项。作者认为代理空间选项可能更具可移植性,问题空间选项仅在源任务和目标任务非常相似时有用。
#### 4.6.3 迁移类似选项的知识
Torrey 等人的方法涉及学习表示为有限状态机的策略,可应用于具有不同状态变量和动作的目标任务。策略在源任务学习,然后通过任务间映射重新映射到目标任务。
### 4.7 迁移学习实验结果表
|# of 3 vs. 2 Episodes|Q - value Reuse - Avg. 4 vs. 3 Time (sim. hours)|Q - value Reuse - Avg. Total Time (sim. hours)|Value Function Transfer - Avg. 4 vs. 3 Time (sim. hours)|Value Function Transfer - Avg. Total Time (sim. hours)|
| ---- | ---- | ---- | ---- | ---- |
|0|30.84|30.84|30.84|30.84|
|10|28.18|28.21|24.99|25.02|
|50|28.0|28.13|19.51|19.63|
|100|26.8|27.06|17.71|17.96|
|250|24.02|24.69|16.98|17.65|
|500|22.94|24.39|17.74|19.18|
|1,000|22.21|24.05|16.95|19.70|
|3,000|17.82|27.39|9.12|18.79|
综上所述,在反应式导航任务、关系强化学习和迁移学习等方面,不同方法各有优劣。HRL 在处理复杂任务和并发子任务上表现出色,RRL 能有效应对大状态空间和泛化问题,迁移学习则通过不同策略帮助代理跨任务学习。这些方法为强化学习在不同场景下的应用提供了丰富的选择和思路。未来,随着研究的深入,有望进一步优化这些方法,提高强化学习系统的性能和适应性。
## 5. 不同方法的对比与总结
### 5.1 扁平 RL 与 HRL 的对比
|对比项|扁平 RL|HRL|
| ---- | ---- | ---- |
|状态空间复杂度|初始状态空间大,经特征处理后为 5184 个状态|状态空间复杂度约为扁平表示的 1/35,子任务状态空间大小为 72,导航任务为 4|
|策略表示|较复杂,难以紧凑表示策略|通过使用更多抽象,更紧凑地表示策略|
|处理子任务能力|两个子目标常相互竞争,处理并发和竞争子任务较困难|可将任务分解为子任务,拆分奖励信号,更适合处理并发和竞争子任务|
|学习速度|学习速度相对较慢|学习速度更快|
|整体性能|随着学习有一定提升,但 HRL 仍可能实现更高的整体性能|表现更优,即使扁平 RL 经过大量学习,HRL 仍可能实现更高的整体性能|
### 5.2 不同迁移学习方法的对比
|迁移方法|特点|适用场景|
| ---- | ---- | ---- |
|Q - 值重用(忽略新结构)|在源任务中学习 Q 值函数,复制到目标任务,忽略新的状态变量和动作|源任务和目标任务有部分相似性,新结构对学习影响较小的情况|
|任务间映射(映射新结构)|明确指出两个任务中不同状态变量和动作之间的关系,泛化源任务知识到目标任务|对源任务和目标任务的关系有一定了解,能设计出合理映射的情况|
|区域迁移|按样本计算目标任务与不同源任务的相似度,仅迁移相似区域的数据|源任务状态空间不同区域与目标任务相似度不同的情况|
|基于 RRL 的迁移|使用 RRL 学习源任务策略,生成关系选项用于目标任务|任务之间具有一定相似性,且适合用关系强化学习表示的场景|
|基于不同框架的选项迁移|将问题分为代理空间和问题空间,学习实现显著事件的选项并迁移|存在预定义显著事件,且代理空间和问题空间有一定特点的场景|
|MASTER 算法|通过穷举搜索生成任务间映射,处理新状态变量和动作|对源任务和目标任务关系不明确,需要全面搜索映射的情况|
### 5.3 总结
在强化学习中,不同的方法针对不同的问题和场景有各自的优势。反应式导航任务中,HRL 通过任务分解和奖励信号拆分,有效解决了并发子任务的问题,提高了学习效率和整体性能。关系强化学习(RRL)利用结构和关系表示,实现了对状态、动作和策略的泛化,能应对复杂的状态空间和不同数量的对象。迁移学习则为代理在不同任务间的学习提供了多种策略,通过跨任务泛化知识,加速了目标任务的学习过程。
## 6. 强化学习方法的应用展望
### 6.1 实际应用场景
强化学习的这些方法在许多实际场景中具有广阔的应用前景。
- **机器人导航**:在复杂环境中,机器人需要在躲避障碍物的同时到达目标位置,类似于反应式导航任务。HRL 可以将导航任务分解为躲避障碍物和到达目标等子任务,提高导航效率和成功率。RRL 可以处理环境中不同对象和关系的变化,实现更灵活的导航策略。迁移学习可以让机器人在不同环境中快速适应,利用之前在类似环境中学习的经验。
- **智能游戏**:如策略游戏、模拟游戏等,游戏中存在多个目标和复杂的状态空间。HRL 可以帮助游戏角色更好地处理并发任务,如同时进行资源收集和防御敌人。RRL 可以对游戏中的各种元素进行泛化,学习通用的游戏策略。迁移学习可以让游戏角色在不同关卡或游戏模式中快速学习,提高游戏性能。
- **交通调度**:在城市交通、物流运输等领域,需要对车辆、行人等进行调度和管理。HRL 可以将调度任务分解为不同的子任务,如路线规划、车辆分配等。RRL 可以处理交通系统中的复杂关系和动态变化。迁移学习可以在不同地区或不同时间段的交通场景中应用,提高调度效率。
### 6.2 未来研究方向
- **更高效的算法设计**:虽然目前已经有多种强化学习方法,但在处理大规模状态空间和复杂任务时,算法的效率仍然有待提高。未来可以研究更高效的算法,如改进关系回归算法、优化迁移学习的映射策略等,以减少计算复杂度和学习时间。
- **多智能体协作**:在实际应用中,往往需要多个智能体协同工作。如何让多个智能体在强化学习框架下进行有效的协作是一个重要的研究方向。可以研究如何将 RRL 和迁移学习应用于多智能体系统,实现智能体之间的信息共享和策略协调。
- **与其他技术的融合**:强化学习可以与深度学习、计算机视觉、自然语言处理等技术相结合,拓展其应用范围和能力。例如,结合深度学习可以处理更复杂的感知任务,结合计算机视觉可以让智能体更好地理解环境,结合自然语言处理可以实现智能体之间的语言交互。
### 6.3 结论
强化学习中的抽象与泛化方法,包括 HRL、RRL 和迁移学习等,为解决复杂任务和提高学习效率提供了有效的手段。通过对不同方法的研究和应用,可以让智能体在各种场景中更好地学习和决策。未来,随着技术的不断发展和研究的深入,强化学习有望在更多领域取得重要突破,为人工智能的发展做出更大的贡献。
下面是一个 mermaid 格式的流程图,展示了迁移学习的一般流程:
```mermaid
graph LR
A[源任务学习] --> B[选择迁移方法]
B --> C{方法类型}
C -->|忽略新结构| D[复制 Q 值到目标任务]
C -->|映射新结构| E[设计任务间映射]
C -->|区域迁移| F[计算相似度并迁移数据]
C -->|基于 RRL 迁移| G[生成关系选项用于目标任务]
C -->|基于不同框架选项迁移| H[学习并迁移选项]
C -->|MASTER 算法| I[生成任务间映射并迁移数据]
D --> J[目标任务学习]
E --> J
F --> J
G --> J
H --> J
I --> J
J --> K[评估性能]
```
这个流程图展示了迁移学习从源任务学习开始,选择不同的迁移方法,然后在目标任务中进行学习,最后评估性能的整个过程。不同的迁移方法根据其特点在流程图中分别展示,清晰地呈现了迁移学习的多样性和复杂性。
0
0
复制全文
相关推荐










