首页|基于强化学习的智能车辆行为决策与运动规划方法研究

基于强化学习的智能车辆行为决策与运动规划方法研究

扫码查看
智能驾驶技术在近年来受到广泛的关注且取得了很大的进步,它是未来智能交通系统的重要组成部分,且有望能够实现交通安全、高效和节能。但是在复杂动态交通场景下的完全自动驾驶,如无红绿灯路口左转、多车道匝道并入主干道等,仍然是智能车辆面临的具有挑战性的任务,其中实现复杂动态交通场景下的智能车行为决策和运动规划是两个主要的挑战。在考虑车辆运动能力和动力学特性的情况下,很难生成优化的行为决策;另外决策与规划之间存在高度的耦合性,因而可能会出现冲突的问题,在决策制定的时候需要保证决策与规划之间的一致性。 针对上述背景和亟待解决的研究问题,本论文主要的研究成果及创新点如下: (1)提出了一种基于多核特征的迭代对偶启发式规划算法(SMI-DHP),该方法利用多核而不是单个核来实现非线性函数的特征表示,该设计能够使用来自多个来源的高维数据样本来逼近目标函数。将多个核宽度整合在一起,利用多核函数进行特征表示,用于离线批量式迭代学习。另外Actor和Critic模块都使用了该多核特征,并进行了算法分析和权值更新规则的推导。倒立摆上的仿真结果验证了SMI-DHP算法的有效性,在实物倒立摆系统上的实验结果表明,该算法的控制性能能够优于传统的PID控制器,并且与LQR之间的性能是比较接近的。 (2)基于SMI-DHP算法的自学习运动规划方法研究,通过设置一个避障回报函数,在避障和跟踪控制之间找到一个平衡。首先,基于经典车辆运动学和动力学模型分别进行规划策略学习。在仿真环境中,将学习得到的规划策略用于在线运动规划问题,实现实时规划;然后,本文基于高逼真车辆动力学模型所产生训练数据和简化的车辆模型,学习得到规划策略,并在14-DOF车辆动力学模型仿真环境下进行了测试。相关的实验结果验证了本文提出的自学习运动规划方法在实时规划问题中的有效性,以及应用到车辆模型不确定下的运动规划问题中的可能性;另外,通过设置不同状态和控制矩阵参数,研究了基于驾驶风格的智能车运动规划。 (3)提出了一种用于智能车自主决策与运动规划的分层强化学习算法(HRLDP)。一种高效的基于不均匀采样和样本池化策略的核最小二乘策略迭代算法(USP-KLSPI)被用于上层决策任务;而在下层的运动规划器使用SMI-DHP算法生成侧向轨迹。在训练过程中上层考虑了高保真车辆动力学模型,用以表征自主车辆和周围车辆的运动能力,这样保证了上层所产生的决策与下层运动规划之间的一致性。在无红绿灯路口左转、多车道匝道并入主干道的交通场景下对算法进行测试,仿真结果验证了该算法在实现优化决策和运动规划方面的有效性和高效性。

陆阳

展开 >

自动驾驶 强化学习 复杂交通场景 行为决策 运动规划

硕士

控制科学与工程

徐昕

2020

国防科技大学

中文

TP