连续动作域中利用奖励机器的深度强化学习
立即解锁
发布时间: 2025-08-21 01:50:48 阅读量: 2 订阅数: 10 


多智能体系统与认知逻辑的融合进展
# 连续动作域中利用奖励机器的深度强化学习
## 1 引言
在强化学习(RL)里,智能体在每个状态下执行动作与环境交互,以此获得奖励信号。其目标是学习一种策略(将观察映射到动作),从而最大化预期累积奖励,并依据过往经验优化策略。
在简单的离散动作域,像有限状态和动作的回合制游戏,基本的 RL 算法(如 Q - 学习)就能迅速找到最优策略。然而,在更复杂的连续动作域,例如自动驾驶,其中加速度和转向角等变量的取值范围是无限的,智能体无法尝试所有可能的动作。因此,Q - 学习难以识别具有最高预期奖励的动作,也无法确定最优策略,且难以有效探索状态空间。
为解决连续动作域这类复杂的 RL 问题,深度强化学习(DRL)应运而生。DRL 把神经网络的理解能力与 RL 的决策能力相结合,使智能体能够处理此类领域中更复杂的问题。
RL 算法中的奖励函数通常是“黑盒”。这意味着学习需要与环境进行大量交互,消耗大量时间和计算资源。但如果智能体能够了解奖励函数的内部结构,理解任务的高层次概念,就能利用这些信息加速最优策略的学习。
为了让智能体能够访问奖励函数,Toro Icarte 等人提出使用有限状态机,即奖励机器(RMs)。奖励机器可以定义支持某些非马尔可夫任务规范的新型奖励函数形式。非马尔可夫奖励指的是奖励不仅取决于当前世界状态,还取决于整个历史。奖励机器能够定义多种形式的奖励函数,包括串联、循环和条件规则。它还能将复杂任务分解为子任务,向智能体揭示每个子任务的奖励函数。假设智能体完全了解奖励机器,当智能体在奖励机器的状态之间转换时,会返回特定子任务的奖励,从而实现逐状态学习,减少探索并加快学习速度。奖励机器具有灵活的表达方式,允许使用线性时态逻辑(LTL/LTLf)或其他形式语言来表示任务,然后将其转换为奖励机器。
为了利用奖励机器的结构,Toro Icarte 等人提出了一种名为奖励机器的反事实经验(CRM)的新方法。CRM 在智能体与环境交互期间,利用奖励机器的奖励函数信息生成合成经验,帮助智能体更明确地判断奖励机器的状态,从而加速学习。
奖励机器可应用于离散和连续动作域。在离散动作域,Toro Icarte 等人通过将奖励机器与 Q - 学习和 Double DQN 结合,提高了现有 RL 和 DRL 算法的学习效率,其中基于奖励机器的 Q - 学习可以收敛到最优策略。但在连续动作域,只有深度确定性策略梯度(DDPG)和基于选项的分层强化学习(HRL)与奖励机器结合过。随着新的深度 RL 算法不断涌现,DDPG 和基于选项的 HRL 的性能逐渐不突出,一些新提出的算法超越了它们。
为解决这个问题,进一步提高连续动作域中基于奖励机器的算法的学习效率,我们主要做了两方面工作:
- 把 CRM 与两种广泛使用且性能良好的深度 RL 算法——软演员 - 评论家(SAC)和双延迟深度确定性策略梯度(TD3)相结合,得到软演员 - 评论家与 CRM(SAC - CRM)和双延迟深度确定性策略梯度与 CRM(TD3 - CRM)算法。
- 与之前的实验相比,扩大了测试任务的范围。基于奖励机器模型,在两个不同的连续动作域中定义了六个新任务。通过实验比较现有和新的基于奖励机器的深度 RL 算法的性能,并分析性能差异的原因。实验发现,SAC - CRM 通常是表现最佳的算法,在指定的学习步骤内,其学习速度和获得的奖励值通常是所有算法中最好的。
## 2 预备知识
### 2.1 RL 中的奖励机器
#### 奖励机器
为支持非马尔可夫奖励,Toro Icarte 等人引入了奖励机器(RM)这一新型奖励函数形式。形式上,给定一组命题符号 $P$、一组(环境)状态 $S$ 和一组动作 $A$,奖励机器(RM)是一个元组 $R_{PSA} = \langle U, u_0, F, \delta_u, \delta_r \rangle$,其中:
- $U$ 是有限状态集;
- $u_0 \in U$ 是初始状态;
- $F$ 是有限的终止状态集($U \cap F = \varnothing$);
- $\delta_u$ 是状态转移函数,$\delta_u : U \times 2^P \to U \cup F$;
- $\delta_r$ 是状态奖励函数,$\delta_r : U \to S \times A \times S \to \mathbb{R}$。
以 OpenAI Gym Half - Cheetah 域中的猎豹机器人为例,任务是从 A 和 B 之间的任意点出发,先到 A 点,再到 B 点,接着到 C 点,然后回到 B 点,再回到 C 点,最后到 D 点以获得 1000 的奖励。智能体可通过选择每个关节的移动角度和施加的力在二维环境中移动。此任务涉及非马尔可夫奖励。
如果任务描述仅指定到达 D 点的最终目标,由于智能体离 D 点较远且任务包含多次往返操作,智能体需要花费大量时间进行探索。但使用奖励机器可以将任务分解为子任务,引入多个奖励机器状态来表示每个中间奖励函数。这样,智能体可以依次学习到达每个点,每个子任务都让其更接近目标,从而减少探索时间,提高学习效率。
在这个环境中,命题符号集 $P$ 可定义为 $P = \{A, B, C, D\}$,当智能体位于位置 $e$ 时,事件 $e \in P$ 发生。为给 $P$ 中的符号赋值,需要一个标记函数 $L : S \times A \times S \to 2^P$。在示例中,$U$ 是所有非终止奖励机器状态的集合,包括 $\{u_0, u_1, u_2, u_3, u_4, u_5\}$;$F$ 是终止奖励机器状态的集合,即 $u_5$ 之后的状态。当智能体到达 A 点时,状态转移函数 $\delta_u$ 会将智能体当前的奖励机器状态从 $u_0$ 转移到 $u_1$(否则保持在 $u_0$),到达 B 点时从 $u_1$ 转移到 $u_2$,依此类推。当智能体到达 D 点(终止状态)时,状态奖励函数 $\delta_r$ 会给智能体 1000 的奖励。
#### MDPRM
在传统的强化学习中,智能体的底层环境模型通常被假设为马尔可夫决策过程(MDP)。MDP 是一个元组 $M = \langle S, A, r, p, \gamma, \mu \rangle$,其中:
- $S$ 是有限状态集;
- $A$ 是有限动作集;
- $r : S \times A \times S \to \mathbb{R}$ 是奖励函数;
- $p (s_{t + 1} | s_t, a_t)$ 是转移概率分布;
- $\gamma \in (0, 1]$ 是折扣因子;
- $\mu$ 是初始状态分布,$\mu (s_0)$ 是智能体从状态 $s_0 \in S$ 开始的概率。
通过使用奖励机器,智能体在学习时不仅要考虑时间 $t$ 的环境状态 $s_t$,还要考虑时间 $t$ 的奖励机器状态 $u_t$。这种额外的考虑将学习环境从传统的 MDP 转变为带奖励机器的马尔可夫决策过程(MDPRM)。
MDPRM 是一个元组 $T = \langle S, A, p, \gamma, \mu, P, L, U, u_0, F, \delta_u, \delta_r \rangle$,其中 $S$、$A$、$p$、$\gamma$ 和 $\mu$ 的定义与 MDP 相同,$P$ 是命题符号集,$L$ 是标记函数 $L : S \times A \times S \to 2^P$,$U$、$u_0$、$F$、$\delta_u$ 和 $\delta_r$ 的定义与奖励机器相同。在 MDPRM 中,智能体学习的策略从 $\pi(a | s)$ 变为 $\pi(a | s, u)$,经验从 $\langle s, a, r, s' \rangle$ 变为 $\langle s, u, a, r, s', u' \rangle$。可以看出,当考虑环境状态 $S$ 和奖励机器状态 $U$ 的叉积时,MDPRM 就是常规的 MDP。因此,标准的 RL 算法可以通过使用环境和奖励机器状态的叉积在 MDPRM 中学习。
#### CRM
为了利用奖励机器提供的信息,Toro Icarte 等人提出了奖励机器的反事实经验(CRM)方法。CRM 同样在叉积 $\pi(a | s, u)$ 上学习策略,但使用反事实推理来生成合成经验。在 CRM 中,每次动作后,奖励机器会遍历每个奖励机器状态 $\bar{u} \in U$,并使用状态转移函数 $\delta_u (\bar{u}, L (s, a, s'))$ 来确定下一个奖励机器状态 $\bar{u}'$;智能体还会使用奖励转移函数 $\delta_r(\bar{u}) (s, a, s')$ 获得奖励 $\bar{r}$。也就是说,奖励机器现在可以为每个奖励机器状态提供一个经验,而不仅仅是 MDPRM 中的实际经验。这样,智能体在采取一个动作后,就能知道该动作是否会导致任何奖励机器状态发生转移,以及如果发生转
0
0
复制全文
相关推荐









