活动介绍

连续动作域中利用奖励机器的深度强化学习

立即解锁
发布时间: 2025-08-21 01:50:48 阅读量: 2 订阅数: 10
PDF

多智能体系统与认知逻辑的融合进展

# 连续动作域中利用奖励机器的深度强化学习 ## 1 引言 在强化学习(RL)里,智能体在每个状态下执行动作与环境交互,以此获得奖励信号。其目标是学习一种策略(将观察映射到动作),从而最大化预期累积奖励,并依据过往经验优化策略。 在简单的离散动作域,像有限状态和动作的回合制游戏,基本的 RL 算法(如 Q - 学习)就能迅速找到最优策略。然而,在更复杂的连续动作域,例如自动驾驶,其中加速度和转向角等变量的取值范围是无限的,智能体无法尝试所有可能的动作。因此,Q - 学习难以识别具有最高预期奖励的动作,也无法确定最优策略,且难以有效探索状态空间。 为解决连续动作域这类复杂的 RL 问题,深度强化学习(DRL)应运而生。DRL 把神经网络的理解能力与 RL 的决策能力相结合,使智能体能够处理此类领域中更复杂的问题。 RL 算法中的奖励函数通常是“黑盒”。这意味着学习需要与环境进行大量交互,消耗大量时间和计算资源。但如果智能体能够了解奖励函数的内部结构,理解任务的高层次概念,就能利用这些信息加速最优策略的学习。 为了让智能体能够访问奖励函数,Toro Icarte 等人提出使用有限状态机,即奖励机器(RMs)。奖励机器可以定义支持某些非马尔可夫任务规范的新型奖励函数形式。非马尔可夫奖励指的是奖励不仅取决于当前世界状态,还取决于整个历史。奖励机器能够定义多种形式的奖励函数,包括串联、循环和条件规则。它还能将复杂任务分解为子任务,向智能体揭示每个子任务的奖励函数。假设智能体完全了解奖励机器,当智能体在奖励机器的状态之间转换时,会返回特定子任务的奖励,从而实现逐状态学习,减少探索并加快学习速度。奖励机器具有灵活的表达方式,允许使用线性时态逻辑(LTL/LTLf)或其他形式语言来表示任务,然后将其转换为奖励机器。 为了利用奖励机器的结构,Toro Icarte 等人提出了一种名为奖励机器的反事实经验(CRM)的新方法。CRM 在智能体与环境交互期间,利用奖励机器的奖励函数信息生成合成经验,帮助智能体更明确地判断奖励机器的状态,从而加速学习。 奖励机器可应用于离散和连续动作域。在离散动作域,Toro Icarte 等人通过将奖励机器与 Q - 学习和 Double DQN 结合,提高了现有 RL 和 DRL 算法的学习效率,其中基于奖励机器的 Q - 学习可以收敛到最优策略。但在连续动作域,只有深度确定性策略梯度(DDPG)和基于选项的分层强化学习(HRL)与奖励机器结合过。随着新的深度 RL 算法不断涌现,DDPG 和基于选项的 HRL 的性能逐渐不突出,一些新提出的算法超越了它们。 为解决这个问题,进一步提高连续动作域中基于奖励机器的算法的学习效率,我们主要做了两方面工作: - 把 CRM 与两种广泛使用且性能良好的深度 RL 算法——软演员 - 评论家(SAC)和双延迟深度确定性策略梯度(TD3)相结合,得到软演员 - 评论家与 CRM(SAC - CRM)和双延迟深度确定性策略梯度与 CRM(TD3 - CRM)算法。 - 与之前的实验相比,扩大了测试任务的范围。基于奖励机器模型,在两个不同的连续动作域中定义了六个新任务。通过实验比较现有和新的基于奖励机器的深度 RL 算法的性能,并分析性能差异的原因。实验发现,SAC - CRM 通常是表现最佳的算法,在指定的学习步骤内,其学习速度和获得的奖励值通常是所有算法中最好的。 ## 2 预备知识 ### 2.1 RL 中的奖励机器 #### 奖励机器 为支持非马尔可夫奖励,Toro Icarte 等人引入了奖励机器(RM)这一新型奖励函数形式。形式上,给定一组命题符号 $P$、一组(环境)状态 $S$ 和一组动作 $A$,奖励机器(RM)是一个元组 $R_{PSA} = \langle U, u_0, F, \delta_u, \delta_r \rangle$,其中: - $U$ 是有限状态集; - $u_0 \in U$ 是初始状态; - $F$ 是有限的终止状态集($U \cap F = \varnothing$); - $\delta_u$ 是状态转移函数,$\delta_u : U \times 2^P \to U \cup F$; - $\delta_r$ 是状态奖励函数,$\delta_r : U \to S \times A \times S \to \mathbb{R}$。 以 OpenAI Gym Half - Cheetah 域中的猎豹机器人为例,任务是从 A 和 B 之间的任意点出发,先到 A 点,再到 B 点,接着到 C 点,然后回到 B 点,再回到 C 点,最后到 D 点以获得 1000 的奖励。智能体可通过选择每个关节的移动角度和施加的力在二维环境中移动。此任务涉及非马尔可夫奖励。 如果任务描述仅指定到达 D 点的最终目标,由于智能体离 D 点较远且任务包含多次往返操作,智能体需要花费大量时间进行探索。但使用奖励机器可以将任务分解为子任务,引入多个奖励机器状态来表示每个中间奖励函数。这样,智能体可以依次学习到达每个点,每个子任务都让其更接近目标,从而减少探索时间,提高学习效率。 在这个环境中,命题符号集 $P$ 可定义为 $P = \{A, B, C, D\}$,当智能体位于位置 $e$ 时,事件 $e \in P$ 发生。为给 $P$ 中的符号赋值,需要一个标记函数 $L : S \times A \times S \to 2^P$。在示例中,$U$ 是所有非终止奖励机器状态的集合,包括 $\{u_0, u_1, u_2, u_3, u_4, u_5\}$;$F$ 是终止奖励机器状态的集合,即 $u_5$ 之后的状态。当智能体到达 A 点时,状态转移函数 $\delta_u$ 会将智能体当前的奖励机器状态从 $u_0$ 转移到 $u_1$(否则保持在 $u_0$),到达 B 点时从 $u_1$ 转移到 $u_2$,依此类推。当智能体到达 D 点(终止状态)时,状态奖励函数 $\delta_r$ 会给智能体 1000 的奖励。 #### MDPRM 在传统的强化学习中,智能体的底层环境模型通常被假设为马尔可夫决策过程(MDP)。MDP 是一个元组 $M = \langle S, A, r, p, \gamma, \mu \rangle$,其中: - $S$ 是有限状态集; - $A$ 是有限动作集; - $r : S \times A \times S \to \mathbb{R}$ 是奖励函数; - $p (s_{t + 1} | s_t, a_t)$ 是转移概率分布; - $\gamma \in (0, 1]$ 是折扣因子; - $\mu$ 是初始状态分布,$\mu (s_0)$ 是智能体从状态 $s_0 \in S$ 开始的概率。 通过使用奖励机器,智能体在学习时不仅要考虑时间 $t$ 的环境状态 $s_t$,还要考虑时间 $t$ 的奖励机器状态 $u_t$。这种额外的考虑将学习环境从传统的 MDP 转变为带奖励机器的马尔可夫决策过程(MDPRM)。 MDPRM 是一个元组 $T = \langle S, A, p, \gamma, \mu, P, L, U, u_0, F, \delta_u, \delta_r \rangle$,其中 $S$、$A$、$p$、$\gamma$ 和 $\mu$ 的定义与 MDP 相同,$P$ 是命题符号集,$L$ 是标记函数 $L : S \times A \times S \to 2^P$,$U$、$u_0$、$F$、$\delta_u$ 和 $\delta_r$ 的定义与奖励机器相同。在 MDPRM 中,智能体学习的策略从 $\pi(a | s)$ 变为 $\pi(a | s, u)$,经验从 $\langle s, a, r, s' \rangle$ 变为 $\langle s, u, a, r, s', u' \rangle$。可以看出,当考虑环境状态 $S$ 和奖励机器状态 $U$ 的叉积时,MDPRM 就是常规的 MDP。因此,标准的 RL 算法可以通过使用环境和奖励机器状态的叉积在 MDPRM 中学习。 #### CRM 为了利用奖励机器提供的信息,Toro Icarte 等人提出了奖励机器的反事实经验(CRM)方法。CRM 同样在叉积 $\pi(a | s, u)$ 上学习策略,但使用反事实推理来生成合成经验。在 CRM 中,每次动作后,奖励机器会遍历每个奖励机器状态 $\bar{u} \in U$,并使用状态转移函数 $\delta_u (\bar{u}, L (s, a, s'))$ 来确定下一个奖励机器状态 $\bar{u}'$;智能体还会使用奖励转移函数 $\delta_r(\bar{u}) (s, a, s')$ 获得奖励 $\bar{r}$。也就是说,奖励机器现在可以为每个奖励机器状态提供一个经验,而不仅仅是 MDPRM 中的实际经验。这样,智能体在采取一个动作后,就能知道该动作是否会导致任何奖励机器状态发生转移,以及如果发生转
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

ESP8266小电视性能测试与调优秘籍:稳定运行的关键步骤(专家版)

![ESP8266小电视性能测试与调优秘籍:稳定运行的关键步骤(专家版)](https://www.espboards.dev/img/lFyodylsbP-900.png) # 摘要 本文全面探讨了ESP8266小电视的基本概念、原理、性能测试、问题诊断与解决以及性能调优技巧。首先,介绍了ESP8266小电视的基本概念和工作原理,随后阐述了性能测试的理论基础和实际测试方法,包括测试环境的搭建和性能测试结果的分析。文章第三章重点描述了性能问题的诊断方法和常见问题的解决策略,包括内存泄漏和网络延迟的优化。在第四章中,详细讨论了性能调优的理论和实践,包括软件和硬件优化技巧。最后,第五章着重探讨了

【STM32f107vc串口通信】:精通串口通信及其与FreeRTOS的完美集成

![【STM32f107vc串口通信】:精通串口通信及其与FreeRTOS的完美集成](https://bkimg.cdn.bcebos.com/pic/4bed2e738bd4b31c8701ac6c6b99307f9e2f0608529e?x-bce-process=image/format,f_auto) # 摘要 本论文详细探讨了STM32F107VC微控制器与串口通信的基础知识、机制、软件实现、在FreeRTOS环境下的编程实践、综合应用案例以及性能调优与故障诊断。首先介绍串口通信的基础理论和STM32F107VC的串口硬件特性,随后阐述在FreeRTOS操作系统中如何进行串口编程

【智能调度系统的构建】:基于矢量数据的地铁调度优化方案,效率提升50%

# 摘要 随着城市地铁系统的迅速发展,智能调度系统成为提升地铁运营效率与安全的关键技术。本文首先概述了智能调度系统的概念及其在地铁调度中的重要性。随后,文章深入探讨了矢量数据在地铁调度中的应用及其挑战,并回顾了传统调度算法,同时提出矢量数据驱动下的调度算法创新。在方法论章节中,本文讨论了数据收集、处理、调度算法设计与实现以及模拟测试与验证的方法。在实践应用部分,文章分析了智能调度系统的部署、运行和优化案例,并探讨了系统面临的挑战与应对策略。最后,本文展望了人工智能、大数据技术与边缘计算在智能调度系统中的应用前景,并对未来研究方向进行了展望。 # 关键字 智能调度系统;矢量数据;调度算法;数据

Shopee上架工具扩展性升级:掌握多店铺同步的终极方案

![Shopee上架工具扩展性升级:掌握多店铺同步的终极方案](https://ask.qcloudimg.com/http-save/yehe-1475574/696453895d391e6b0f0e27455ef79c8b.jpeg) # 摘要 Shopee店铺同步工具是一个为电商平台多店铺管理提供的解决方案,本文详细介绍了该工具的基本概念、多店铺同步的技术基础、实践应用以及进阶功能开发。通过探讨同步技术架构、数据库同步理论与实践、以及高级同步技术,本文旨在提供一个全面的同步工具实践框架。随后,文章深入分析了如何实现同步流程优化、增强工具扩展性,并开发了API集成、异常处理、用户权限管理

【管理策略探讨】:掌握ISO 8608标准在路面不平度控制中的关键

![【管理策略探讨】:掌握ISO 8608标准在路面不平度控制中的关键](https://assets.isu.pub/document-structure/221120190714-fc57240e57aae44b8ba910280e02df35/v1/a6d0e4888ce5e1ea00b7cdc2d1b3d5bf.jpeg) # 摘要 本文全面概述了ISO 8608标准及其在路面不平度测量与管理中的重要性。通过深入讨论路面不平度的定义、分类、测量技术以及数据处理方法,本文强调了该标准在确保路面质量控制和提高车辆行驶安全性方面的作用。文章还分析了ISO 8608标准在路面设计、养护和管理

英语学习工具开发总结:C#实现功能与性能的平衡

# 摘要 本文探讨了C#在英语学习工具中的应用,首先介绍了C#的基本概念及在英语学习工具中的作用。随后,详细分析了C#的核心特性,包括面向对象编程和基础类型系统,并探讨了开发环境的搭建,如Visual Studio的配置和.NET框架的安装。在关键技术部分,本文着重论述了用户界面设计、语言学习模块的开发以及多媒体交互设计。性能优化方面,文章分析了性能瓶颈并提出了相应的解决策略,同时分享了实际案例分析。最后,对英语学习工具市场进行了未来展望,包括市场趋势、云计算和人工智能技术在英语学习工具中的应用和创新方向。 # 关键字 C#;英语学习工具;面向对象编程;用户界面设计;性能优化;人工智能技术

SSD加密技术:确保数据安全的关键实现

![固态硬盘SSD原理详细介绍,固态硬盘原理详解,C,C++源码.zip](https://pansci.asia/wp-content/uploads/2022/11/%E5%9C%96%E8%A7%A3%E5%8D%8A%E5%B0%8E%E9%AB%94%EF%BC%9A%E5%BE%9E%E8%A8%AD%E8%A8%88%E3%80%81%E8%A3%BD%E7%A8%8B%E3%80%81%E6%87%89%E7%94%A8%E4%B8%80%E7%AA%BA%E7%94%A2%E6%A5%AD%E7%8F%BE%E6%B3%81%E8%88%87%E5%B1%95%E6%9C%9

FRET实验的高通量分析:自动化处理与高精度数据解读的十个技巧

![FRET实验的高通量分析:自动化处理与高精度数据解读的十个技巧](https://www.bmglabtech.com/hubfs/1_Webseite/5_Resources/Blogs/kinase-assays-fig4.webp) # 摘要 FRET( Förster共振能量转移)实验是生物物理和生物化学研究中一种广泛应用的技术,尤其在高通量分析中具有重要地位。本文从FRET实验的背景讲起,详细探讨了高通量自动化处理技巧、高精度数据解读的理论与实践,以及高级自动化与数据分析方法。文中分析了高通量实验设计、自动化工具的应用、数据采集和管理,以及解读数据分析的关键技术。进阶内容包括机

【Swing资源管理】:避免内存泄漏的实用技巧

![【Swing资源管理】:避免内存泄漏的实用技巧](https://opengraph.githubassets.com/a6710ff2c86c331c13363554d00aab3dd898536c00e1344fa99ef3cd2923e717/daggerok/findbugs-example) # 摘要 Swing资源管理对于提高Java桌面应用程序的性能和稳定性至关重要。本文首先阐述了Swing资源管理的重要性,紧接着深入探讨了内存泄漏的成因和原理,包括组件和事件模型以及不恰当的事件监听器和长期引用所导致的问题。本文还对JVM的垃圾回收机制进行了概述,介绍了Swing内存泄漏检

【OGG跨平台数据同步】:Oracle 11g环境下的跨平台同步绝技

# 摘要 本文详细介绍了跨平台数据同步技术,并以Oracle GoldenGate(OGG)为例进行深入探讨。首先,概述了Oracle 11g下的数据同步基础,包括数据同步的定义、重要性以及Oracle 11g支持的数据同步类型。随后,介绍了Oracle 11g的数据复制技术,并详细分析了OGG的软件架构和核心组件。在实战演练章节,文章指导读者完成单向和双向数据同步的配置与实施,并提供了常见问题的故障排除方法。最后,重点讨论了OGG同步性能优化策略、日常管理与监控,以及在不同平台应用的案例研究,旨在提升数据同步效率,确保数据一致性及系统的稳定性。 # 关键字 数据同步;Oracle Gold