【摘 要】对结构化道路环境下基于强化学习的自动驾驶技术进行综合评述。首先介绍了强化学习的基本原理;随后讨论了基于视觉和非视觉的感知信息表征方法在强化学习任务上的作用;接着从强化学习在自动驾驶中的作用角度出发,划分为基于强化学习的决策规划和决策控制两个层面,针对不同层面,依附主要研究场景,讨论具体强化学习应用方法;最后对研究现状以及该新技术带来的新问题进行总结。综述表明,强化学习技术应用于结构化道路下自动驾驶还需要持续展开研究,将强化学习技术应用于多个场景需要进一步探索,利用现有方法迁移到多车、人车交互场景需要进一步验证。
关键词 自动驾驶;决策规划;决策控制;强化学习;深度学习
1 引 言
自动驾驶作为人工智能和交通运输领域的交叉点,近年来取得了长足的发展。目前,自动驾驶技术已经进入了实际应用阶段,多家公司和研究机构都在进行自动驾驶技术的研发和测试。在自动驾驶技术的发展进程中,传统方法和强化学习方法都发挥着重要作用[1-3]。
传统的自动驾驶技术主要依赖于规则库的制定,包括环境感知、交规、路径规划等[4]。在自动驾驶车辆行驶过程中,依据已建立好的规则库,与当前环境进行匹配,进而决定下一时刻合理的行为。随着结构化道路交通环境的复杂性不断增加,基于规则的传统自动驾驶技术局限性日益暴露[5-7],如何使自动驾驶能够准确感知环境、做出智能决策并安全控制车辆成为了当前研究的热点问题。
强化学习作为一种基于智能体与环境交互学习的方法,具有很强的适应性和学习能力,因此被广泛应用于自动驾驶技术中。强化学习方法不需要人工设计复杂的规则和模式,从而能够更好地适应复杂多变的道路环境。强化学习方法能够根据环境的反馈不断优化决策和控制策略,从而实现更加智能化的自动驾驶[8-10]。
本文对国内外结构化道路基于强化学习的自动驾驶技术研究现状进行回顾和总结。首先介绍了强化学习的基本原理和方法。其次探讨了强化学习在自动驾驶中常用的两种感知状态表征方法,包括基于纯视觉的状态感知以及基于非视觉传感器特征的状态感知。接着,本文对基于强化学习的决策规划和决策控制进行深入研究,依附于不同的研究场景,介绍相应的强化学习方法。包括感知状态信息在不同场景下的使用差异,如何构造强化学习奖励函数使自动驾驶能够安全、舒适以及高效地行驶等。最后,本文对结构化道路下强化学习自动驾驶技术进行总结,并阐述了应用强化学习给自动驾驶车辆带来的新问题。
2 强化学习
强化学习旨在通过智能体不断与环境进行交互来学习最优行为策略。智能体获取当前所处环境的状态,并基于当前状态依据当前策略采取相应的动作,同时从环境中得到采取该动作的奖励以及下一时刻状态的反馈,进而不断更新其策略,最大化长期的累计奖励。其中,策略定义了在给定状态下各个行为的概率分布。马尔可夫决策过程[11]是强化学习的理论基础。马尔可夫决策过程通常由状态空间集合S,动作空间集合A,状态转移概率P以及奖励函数R四个元素组成。智能体在每个时间步都会观察到环境的状态,并基于当前状态做出决策,选取相应的动作。同时环境会反馈给智能体一个奖励,用于衡量在该状态下采取该行为的优劣程度。智能体的目标是找到一个策略,使得在所有可能的状态和动作组合中,总奖励最大。
由于自动驾驶自身的高度复杂性,无法准确地建立模型环境,因此在自动驾驶领域所使用的强化学习通常指基于无模型并使用深度神经网络的强化学习[12],其一般分为基于价值的强化学习以及基于策略的强化学习。基于价值的强化学习通过估计动作状态价值来决定下一时刻的动作。动作状态价值函数用以表示自动驾驶在给定的状态和行为下可以获得的长期奖励的期望。在基于价值的强化学习中,自动驾驶通过不断迭代更新价值函数来优化策略,使之能够实现最大化长期奖励的目标。常见的基于价值的强化学习算法主要为Deep Q-Network(DQN)[13]及其衍生算法。例如Van等[14]为降低DQN过估计问题而设计的Double DQN算法以及Schaul等[15]提出的优先经验回放来提高DQN学习效率等。基于价值的强化学习难以处理高维动作空间问题,而基于策略的强化学习能够有效处理高位动作空间以及避免价值函数过估计问题。基于策略的强化学习是将策略参数化,使用梯度下降等优化算法直接搜索最优策略来找到最优解/最大化期望回报。代表性的基于策略的强化学习算法有Trust Region Policy Optimization[16]算法以及 Proximal Policy Optimization[17]算法。相较于基于价值的强化学习,基于策略的强化学习需要对策略进行更多的采样和评估,具有更多的计算资源需求,同时也易陷入局部最优等问题。近年来,研究者们将基于价值的强化学习与基于策略的强化学习相结合,提出了确定性策略强化学习以及随机性策略强化学习算法。确定性策略强化学习总是输出当前状态下的最优动作,常见的算法有Deep Deterministic Policy Gradient[18]算法,而随机性策略强化学习则是输出当前状态下动作的概率分布,常见的算法有Soft Actor-Critic[19]算法,相较于确定性策略,随机性策略的学习和优化相对复杂但具备更强的探索能力,可以更好地找到全局最优解。
3 环境感知
自动驾驶环境感知是自动驾驶系统重要组成部分之一,其主要功能是通过多种传感器获取和处理环境信息,以便自动驾驶车辆能够识别和理解周围的环境,从而做出正确的决策。感知模块通常包括视觉传感器、激光雷达、毫米波雷达、超声波雷达等多种传感器。这些传感器可以提供车辆周围环境的详细信息,包括障碍物的位置、速度和方向等,帮助自动驾驶车辆做出安全、有效的行驶决策。本节将环境感知分为视觉感知和非视觉感知两个部分。
3.1 基于视觉的感知信息表征
视觉感知主要依靠图像中存在的大量环境信息,包括障碍物的位置、速度和方向等,帮助自动驾驶车辆做出安全、有效的行驶决策。使用图像作为输入的强化学习不仅可以应用于各种不同的自动驾驶场景,包括城市街道、高速公路、野外道路等,还可以通过可视化的方式展示自动驾驶车辆的行驶状态和决策过程,有助于更好地理解和优化自动驾驶系统。
视觉感知任务主要有路面状况识别以及目标检测与识别等。在路面状况识别方面,丁泽亮等[20]为了提高自动驾驶车辆对越野环境的理解能力,采集了包括林地、山地以及雪地等多种不同越野场景数据并进行人工标注制作成数据集。利用卷积神经网络Inception-v3[21]架构将场景识别和语义分割相结合,提升了路面提取算法在不同野外场景下的准确性。在目标检测和识别方面,王越等[22]将双向注意力信息增强和多分支级联分别用于特征增强模块和特征融合模块,以此进一步提升YOLOP[23]算法在目标检测、可行驶区域分割及车道线检测等多项任务中的检测精度。
3.2 基于非视觉的感知信息表征
非视觉感知大多通过发射和接收传感器信息来感知周围障碍物,自动驾驶车辆可以直接从这些传感器中获取障碍物的位置、速度以及方向等信息。相比于基于视觉的感知信息,使用基于非视觉的感知信息作为强化学习输入可以降低数据需求、计算资源需求以及硬件要求。
根据自动驾驶任务的不同,强化学习所选取的非视觉感知信息也会有所差异,主要包括车道保持以及换道等任务。在车道保持任务中,常见的感知信息包括自动驾驶车辆横向的位置和速度信息[24-25],Wu等[26]增加了道路信息以及朝向信息来约束自动驾驶车辆在道路中心行驶并减少转向频率;在换道任务中,感知信息除了自身的位置速度信息,还包括周围障碍物的位置速度信息,通过向量组合的方式整合每条道路上的信息作为强化学习输入[27-28]。此外,Peng等[29]预先评估换道带来的收益并将此收益额外作为强化学习输入,该做法可以提供强化学习换道策略先验知识,提高换道时机的准确性。
4 基于强化学习的决策规划
决策规划是自动驾驶关键技术之一,主要负责根据自动驾驶自身任务需求以及周围环境信息,制定相应的决策,生成安全、有效的行驶路径,高效地完成行驶任务。按照划分的层面不同,决策规划可分为全局路径规划和局部路径规划。全局路径规划是基于静态地图信息,规划出一条或者多条自动驾驶车辆可行驶的路径。在全局路径规划任务中,传统的算法如A*[30]、RRT[31]等已经可以较好地完成任务,因此鲜有学者研究强化学习对全局路径的规划。局部路径规划主要依据全局路径以及局部环境信息,包括局部道路结构、交规以及其他交通参与者的状态信息等,制定一个短期、实时的策略以确保自动驾驶车辆能够安全、高效地完成行驶任务。在局部路径规划中,强化学习主要用于并道、换道以及高速等场景中。表1总结了不同场景下的强化学习决策规划方法。
表1 不同场景下强化学习决策规划方法
Table 1 Reinforcement learning approaches for decision planning in different scenarios
4.1 并道场景下的强化学习决策规划
如图1所示,自动驾驶车辆(蓝色)从匝道汇入主车道时,需要考虑主路车辆状态信息,选择合适的时机使得自动驾驶车辆能够安全高效地汇入主路。
图1 并道场景示意图
Fig.1 Merge scenario diagram
强化学习用于并道场景时,其状态/输入信息主要为自动驾驶车辆状态以及周围车辆状态信息,并输出行为规划如变道、加速、减速等行为指令,或者输出油门、刹车以及转向等底层控制指令。本文将纯输出底层的控制指令方法划分为并道场景下的强化学习决策控制,将在下一章节详细描述。在输出行为规划的动作中,Liu等[32]将自动驾驶车辆以及周围车辆的横纵向位置、横纵向速度信息作为状态输入,通过设置多目标奖励函数考虑自动驾驶车辆的安全性、舒适性以及效率,随后增加模型预测控制来进一步保证强化学习输出动作的安全性,最终输出转向决策。这种方法大幅增加了车辆行驶的安全性,小幅度提高了行驶效率。除了考虑自身车辆行驶的安全和效率外,Fan等[33]致力于使用纯强化学习算法来提升高密度交通流下的并道效率并减少对整体交通流的影响。除了将自动驾驶车辆以及周围车辆的速度和位置信息作为输入,还增加了加速度信息辅助决策,将整体车辆的平均速度作为强化学习奖励函数,将并道任务的成功与否作为最终奖励,并输出加速度信息与是否并道决策。此类做法提升了整体的行驶效率,代价是自车效率会有一定的损失。Schmidt等[34]则是额外利用一个强化学习模型来评估当前车辆的安全性,通过两个强化学习模型价值函数的加权得到最终的价值函数。将自动驾驶车辆航向角、周围车辆与自动驾驶车辆的距离以及周围车辆相对于自动驾驶车辆的转向信息作为强化学习状态输入,设置稀疏奖励,并输出并道决策以及5个固定的不同目标速度概率。此方法不仅可以大幅降低事故交通概率,也提升了自动驾驶车辆行驶效率,但是与模型预测控制等传统方法相比,行驶效率波动较大。
4.2 换道场景下的强化学习决策规划
如图2所示,基于强化学习的换道场景通常是指在自动驾驶车辆(蓝色)感知到当前道路拥堵的情况下,通过感知周围车辆的运动状态信息,选择最佳的车道进行换道,以避免拥堵。
图2 换道场景示意图
Fig.2 Lane change scenario diagram
在强化学习应用于换道场景时,一些学者利用视觉信息,通过处理图像信息直接获取换道决策,再由控制做出具体换道行为。如付一豪等[35]对680 × 480 × 3的RGB图片进行Xception卷积[36]后作为强化学习状态输入,通过奖励函数控制换道期望距离,并输出当前的换道决策。该方法可以提高对图像特征的提取能力从而提升整体决策能力,但增加了模型的推理时间。Li等[37]使用Transformer模型[38]对连续5帧图像提取特征作为强化学习状态输入,并使用深度可分卷积神经网络(Depth-wise Separable Convolution Neural Network,DSCNN)[39-40]降低模型复杂度。此外,作者还构造换道风险评估模型作为强化学习奖励函数来提升模型抗风险能力,并输出最终换道决策。虽然作者利用了DSCNN降低模型复杂度,但是模型推理时间依旧较长。除了将图像作为输入,He等[41]将自动驾驶车辆与周围车辆的速度、转向角、相对距离以及自动驾驶车辆当前的加速度、所在车道信息作为状态输入,使用贝叶斯优化增强强化学习健壮性,根据自动驾驶车辆速度、换道行为风险以及安全性构造奖励函数,并输出最终换道决策。张雪峰等[42]认为使用图片或者自动驾驶车辆与其他车辆之间的相对运动状态信息会使得特征维度过度增加并且存在冗余特征,只将自动驾驶车辆以及左右车道最近的一辆车纳入状态空间,具体包括3辆车之间的相对车道、相对位置以及相对速度信息。通过构造奖励函数惩罚违反交规的行为,并鼓励自动驾驶车辆高效安全的行驶和换道,最终输出向左变道、不变道以及向右变道三种变道行为,-2 m·s-2~1 m·s-2 间7种不同加速度,共21维动作概率。
4.3 高速场景下的强化学习决策规划
如图3所示,高速场景自动驾驶车辆(蓝色)需要以高速行驶,在保证稳定、安全以及舒适的前提下尽可能快地驶离高速。
图3 高速场景示意图
Fig.3 Highway scenario diagram
由于换道场景可能包含跟车、换道以及超车等场景,因此在基于强化学习的高速场景中,其动作输出与这些场景十分相似,而在奖励函数设计中会因总体目标的差异而有所不同。例如,Xu等[43]将自动驾驶车辆当前所在车道、行驶速度、与其他车辆的距离以及其他车辆的行驶速度作为状态输入,设计奖励函数考虑安全、道路限速,并输出下一时刻目标道路。Hoel等[44]使用智能驾驶模型 (Intelligent Driver Model,IDM)[45]控制仿真环境中所有车辆纵向加速度,将自动驾驶车辆与周围车辆的位置、速度、以及IDM参数信息作为状态输入,构造奖励函数鼓励行驶速度为车道最大速度,惩罚碰撞以及换道次数,并输出换道以及是否加减速决策。Yildirim等[46]不仅将IDM用于控制所有车辆的加速度,同时包含了速度。将连续几帧的鸟瞰图(Bird-Eye View,BEV)[47] 作为状态输入,利用注意力机制以及卷积网络处理图像信息,构造奖励函数奖励自动驾驶车辆到达高速出口/终点,惩罚换道次数以及碰撞,并输出换道指令。Mo等[48]将自动驾驶车辆以及周围车辆的速度、当前所在车道号以及相对距离作为状态输入,通过奖励函数设置最低速度,惩罚碰撞以及奖励到达出口。
4.4 其他场景下的强化学习决策规划
除了并道和换道场景,还有少量学者将强化学习技术应用于路径跟踪、轨迹规划等场景。如Shan等[49]将自动驾驶车辆轨迹点横纵向误差、曲率以及速度作为状态输入,构造奖励函数考虑轨迹平滑以及跟踪误差,并输出比例-积分-微分(Proportional-Integral-Derivative,PID)[50]控制参数。Naveed等[51]将自动驾驶车辆速度、所在车道号,目标车辆速度、所在车道号,当前距离与安全距离的比值以及自动驾驶车辆与目标车辆的距离作为状态输入,构造奖励函数惩罚耗时、碰撞以及可能发生碰撞的情形,奖励到达目标点,并输出是否换道决策。
5 基于强化学习的决策控制
决策控制也是自动驾驶重要技术组成部分之一,主要根据规划结果,通过控制系统来实现自动驾驶车辆的运动操作,包括加速、转向以及制动等。在自动驾驶决策控制中,强化学习根据感知信息直接输出控制指令,因此,基于强化学习的决策控制也是一种端到端的策略。表2总结了不同场景下的强化学习决策控制方法。
表2 不同场景下强化学习决策控制方法
Table 2 Reinforcement learning approaches for decision control in different scenarios
5.1 跟车场景下的强化学习决策控制
跟车场景是生活中比较常见的任务之一,也是强化学习在自动驾驶中相对简单的任务之一。如图4所示,跟车场景主要由领航车(前方车辆)以及自动驾驶车辆(跟随车辆)两辆车组成,两辆车同时保持在车道中心线上,自动驾驶车辆跟随领航车并调整车辆速度以保持一定的安全距离。
图4 跟车场景示意图Fig.4 Car following scenario diagram
强化学习应用于跟车场景通常根据感知环境直接输出加速度指令。邓小豪等[52]将自动驾驶车辆与领航车之间的距离、自动驾驶车辆加速度以及自动驾驶车辆与领航车之间的相对速度作为强化学习的输入,奖励函数结合最小安全距离模型同时考虑自动驾驶车辆的安全性、行驶效率以及舒适性,最终输出自动驾驶车辆期望加速度。尽管作者考虑了舒适性因素,然而实验结果显示其急动度还是偏大,其权重也是在仿真环境中不断尝试得出,难以应用于真实复杂跟车环境。为了使强化学习奖励函数设计更贴近真实场景,郭景华等[53]通过跟车数据分析驾驶员行为特性及其影响因素,将自动驾驶车辆的速度、自动驾驶车辆与领航车之间的速度差以及距离作为强化学习输入,并输出加速度。该方法使得强化学习输出更接近于驾驶员行为,但是同样也限制了强化学习本身的能力。陈越等[54]为了提升车辆强化学习本身的能力以及减小交通震荡带来的负面影响,额外考虑了交通震荡带来的交通拥堵以及增加能源消耗等问题,将跟车时距纳入强化学习的状态中,并构造行驶效率和跟车规则奖励函数来提升自动驾驶跟车性能。实验结果表明,与人类驾驶员行车行为相比,自动驾驶车辆行驶过程中的不适应性降低55.95%,行驶效率提高8.82%。针对跟随场景下的能量管理,唐小林等[55]采用分层强化学习策略将自动驾驶跟车任务与能源控制分为上下两层,其中上层根据领航车速度、加速度、自动驾驶车辆速度以及两者之间的距离直接输出加速度,下层根据自动驾驶车辆电荷状态、速度、加速度以及无级变速器传动比输出发动机功率变化量以及传动比变化量。
5.2 车道保持场景下的强化学习决策控制
跟车任务主要关注自动驾驶纵向控制,而车道保持则更偏向自动驾驶横向控制。如图5所示,自动驾驶车辆(蓝色)需要在行驶过程中,通过控制车辆转向以及行驶轨迹,确保车辆始终保持在当前车道。
图5 车道保持场景示意图Fig.5 Lane keeping scenario diagram
强化学习应用于车道保持场景时,其状态输入可分为基于视觉和基于非视觉两种。在基于视觉的强化学习决策控制中,Wolf等[56]选择输入一张48 × 27像素图片,通过奖励函数将自动驾驶车辆约束在车道中央,并输出5种不同转向幅度的转向概率。这种方法将连续动作空间转换成5维动作空间,使得强化学习算法易于收敛,但会增大距离误差。此外,作者输入的图像没有其他交通参与者,降低了神经网络对图像处理的要求,与实际交通场景也存在一定差距。Kendall等[57]使用变分自编码器[58]提升强化学习对图片特征的提取能力。考虑到直接使用奖励函数将自动驾驶车辆强行约束在车道中央可能会限制了强化学习能力,因此作者将自动驾驶车辆速度和是否碰撞作为奖励函数,并在连续动作空间中直接输出速度以及转向角具体数值。在基于非视觉的决策控制中,其状态输入通常为自动驾驶车辆自身状态信息以及所在的道路信息。如Lee等[59]将前方150°视野内的车道线与自动驾驶车辆距离作为输入,只将车辆是否会驶出车道作为奖励约束,并输出5 种不同角度的转向概率。该方法提供了新的状态设计思路,但是交通场景以及奖励函数设计都较为简单。Wu等[60]考虑了更复杂且更贴近实际的车道保持场景,包括自动驾驶车辆朝向、横纵向速度、自身与车道中心的相对位置、当前车挡位以及每分钟转速等信息,通过奖励函数考虑强化学习输出有效的速度以及避免频繁转向问题,输出加速度、减速度以及转向角具体数值。此外,也有学者将视觉与非视觉传感信息结合作为输入,如田康等[61]将图像信息通过卷积网络处理之后与自动驾驶车辆速度信息、车轮转速、朝向、车辆与车道中心距离信息以及车辆与车辆线之间的距离信息共同作为输入,通过奖励函数考虑自动驾驶车辆舒适性、安全性以及行驶效率,并输出转向、油门以及制动信息。
5.3 并道场景下的强化学习决策控制
相较于并道场景下的强化学习决策规划,并道场景下的强化学习决策控制在场景迁移或任务迁移时相对性能较差,但是可以更加精确地控制底层动作,具备更强的适应性,能够更有效地应对高实时性任务。
此外,并道场景的决策控制通常会考虑额外的约束来增强强化学习输入的安全性以及模型鲁棒性等。如Hwang等[62]先用有限状态机(Finite State Machine,FSM)[63]判断当前自动驾驶车辆是否适合以及能够安全地执行并道任务,然后将自动驾驶车辆以及周围车辆的相对位置信息、速度信息、加速度信息、车辆大小、朝向以及转向角信息作为强化学习输入,通过奖励函数考虑并道风险、性能以及舒适性,并输出加速度和转向角信息。该方法将当前并道场景下的交通状态中的并道可行性先通过FSM判断,继而作为先验知识输入给强化学习模型。此方法降低了强化学习模型的能力要求,提升了整体安全性,但对FSM的构造要求苛刻。Udatha等[64]利用控制障碍函数(Control Barrier Functions,CBF)[65]提升强化学习算法的安全性,将自动驾驶车辆以及周围车辆的位置、速度、角速度信息以及自动驾驶车辆油门和姿态信息作为状态输入,通过奖励函数考虑自动驾驶车辆当前状态与并道后目标状态差异以及自动驾驶车辆与周围车辆的距离,并输出自动驾驶车辆姿态信息。该方法虽然能够提升自动驾驶的安全性,但有时会过于保守从而降低行驶效率,并且多辆交通车辆的并道场景下如何设计CBF也是一项挑战。张志勇等[66]通过对样本方差加权平均来提升算法性能,将自动驾驶车辆以及周围车辆的速度、位置以及航向角信息作为状态输入,通过奖励函数考虑并道策略的安全性、效率以及舒适性,并输出加速度和转向角信息。相对于前两者的方法,该方法提高了并道的优先级,降低了安全的优先级。He等[67]则只将速度作为动作,降低了强化学习的学习难度。通过对抗策略增强强化学习模型的鲁棒性。其状态输入为自动驾驶车辆及周围车辆的加速度、速度以及位置信息,并通过奖励函数诱导自动驾驶车辆并入目标车道且避免碰撞。该方法提升了强化学习模型的鲁棒性,考虑了真实场景下的不确定性误差对模型的影响,然而动作维度单一,只有纵向速度。
5.4 交叉口场景下的强化学习决策控制
交叉口场景是自动驾驶任务中十分复杂的场景之一,涉及到多个方向的交通流。车辆和行人可能从不同的道路进入交叉口,转向不同的方向,同时车辆和行人的行为具有一定的不确定性。车辆可能会变道、停车或加速,行人可能会突然穿越马路。自动驾驶车辆需要根据各个方向的车辆和行人的行为意图做出相应决策。
目前强化学习应用于交叉口这种复杂场景主要用于速度控制。一个可能的原因是交叉口场景的复杂性意味着强化学习需要处理大量的状态和动作组合,以及不确定性因素。在这种情况下,确保强化学习算法的安全性和可靠性是至关重要的。因此,目前大部分学者更倾向于将强化学习应用于相对较简单的任务,比如速度控制,以确保安全性和可靠性。例如,Seong等[68]将自动驾驶车辆前方40 m车辆的位置、相对角度、相对距离,前面15 m的轨迹点,自车速度、转向角以及上一时刻自动驾驶车辆行为信息作为状态输入,通过注意力机制获取周围车辆与自动驾驶车辆在时间和空间上的关系。通过惩罚碰撞,设置期望速度以及定义耗时构造奖励函数,并输出速度行为。该方法与传统的强化学习算法相比,提升了通过交叉口的成功率,然而其模型推理时间可能会增加。与设计复杂网络相比,Zhang等[69]将自动驾驶车辆的速度、到目的地的距离、当前与未来可能发生冲突的区域距离、周围最近5辆车的速度、与可能发生冲突区域的距离以及道路优先级作为状态输入,设置奖励函数考虑碰撞、安全性、行驶效率以及交规信息,并输出速度行为。该方法通过对道路信息的预处理提升强化学习的学习效率,通过责任敏感安全模型进一步保障自动驾驶行为的安全性。Yuan等[70]将自动驾驶车辆激光雷达信息、速度和路径信息以及周围车辆的速度、路径信息作为状态输入,设置奖励函数惩罚碰撞、危险状态、加速度频繁变化,奖励到达目的地以及中途检查点,并输出离散期望动作概率。此方法细化了奖励函数,加快了强化学习的学习速度。也有少部分学者在交叉口场景赋予强化学习更多的控制能力,Bautista-Montesano等[71]将自动驾驶车辆坐标、转向角、速度、加速度、越轨误差、行驶轨迹与行驶路径偏差、所选路径是否会发生碰撞以及周围车辆的坐标、速度信息作为状态输入,将输入作为奖励目标并构造约束方程,结合模型预测控制输出加速度和转向角以及当前最优行驶路径。
5.5 其他场景
此外,也有少量学者研究其他场景的强化学习控制,包括漂移、刹车等。例如,Fu等[72]将自动驾驶车辆与前方车辆的速度、加速度以及位置信息作为状态输入,根据不同的刹车时机构造不同的奖励函数,并输出刹车或换道决策。Brunoud等[73]考虑了人行横道场景,将自动驾驶车辆和行人的加速度、速度以及位置信息作为状态输入,构造奖励函数惩罚碰撞以及加速度变化频繁,鼓励自动驾驶车辆达到期望速度,并输出加速度。Domberg等[74]将强化学习技术应用于自动驾驶漂移场景,其状态输入为自动驾驶车辆速度、转向角、轨迹点以及滑移角信息,构造奖励函数考虑路径跟踪误差以及偏航角信息,并输出加速度和转向角。
6 结束语
随着强化学习技术和自动驾驶技术的不断发展与进步,越来越多的研究学者对基于强化学习的自动驾驶技术产生兴趣并展开研究。结构化道路场景下的强化学习自动驾驶研究的不断进步,加快了将强化学习真正应用于自动驾驶中的进程,也为无人驾驶技术在城市作战的应用打下坚实的基础。本文针对结构化道路场景下的强化学习自动驾驶技术,首先介绍了两种感知框架,然后调研和总结了决策规划和决策控制两个层面下的不同结构化道路场景应用。一是决策规划层面,主要介绍了并道、换道以及高速三种常见场景。强化学习模型通常只负责高层决策,其具体执行由传统方法如二次规划、模型预测控制等方法实现。因此,决策规划中的强化学习奖励函数更多地只是考虑安全性,很少会考虑其舒适性。二是决策控制层面,强化学习模型直接输出最终期望速度和转向角。因此相较于决策规划部分,其奖励函数的设计更加复杂,一般都会考虑安全性、舒适性以及效率三个部分。无论是决策规划还是决策控制,当前学者们都着重针对强化学习状态设计及其特征提取方法展开研究。相较于决策规划,决策控制中奖励函数中的安全性、舒适性以及效率如何量化以及权衡同样也是研究的热点。此外,由于基于强化学习的决策规划更多地关注于高层决策,因此模型选择多为基于值的强化学习方法,而基于强化学习的决策控制由于输出多维连续变量,因此多选择基于策略的强化学习方法。总的来说,目前大部分学者还只是针对某个特定的场景进行研究,且场景设置也较为简单,强化学习模型中的状态、动作设计也还没有形成共识,基于强化学习的自动驾驶研究还处于初步阶段。如何设计具有普适性的强化学习状态表征并将其应用于多个复杂场景仍是巨大的挑战。
此外,强化学习应用于自动驾驶技术还会带来新的问题。主要包括:
(1)深度强化学习模型的复杂性和非线性特征导致其在决策过程中缺乏可解释性,这使得模型的决策基础和逻辑难以理解。
(2)自动驾驶系统需要在各种复杂和不确定的环境中运行,模型的鲁棒性成为至关重要的问题,尤其是在面对未知环境和外部干扰时。
(3)对抗攻击对自动驾驶系统构成了潜在威胁,而深度强化学习模型对对抗攻击的敏感性使其容易受到攻击和干扰。、
原文链接:推荐阅读 | 结构化道路下强化学习自动驾驶技术研究综述
声明:本文为学习所用,若有转载文章或图片侵犯了您的合法权益,请作者私信或留言,我们将及时更正、删除,谢谢。