摘要
自动驾驶跟驰决策是车辆根据当前运动状态与环境信息,决策出理想动作的过程。目前自动驾驶跟驰决策能保证车辆安全与行车效率,但不同驾驶员具有差异化性格、技术、风格,统一标定的控制策略无法满足不同驾驶员的驾驶习性。考虑将驾驶人的行为偏好融入自动驾驶跟驰决策,提升宜人性将促进本领域进一步的发展。 为提高车辆自主跟驰的个性化程度,使之能适应不同驾驶员的驾驶风格,提高乘员对自动驾驶功能的接受度。本文提出了考虑驾驶人特征的跟驰决策算法,在此基础上为满足更多驾驶人的需求,提出了基于监督信号引导强化学习的自动驾驶拟人化跟驰决策算法。具体工作内容如下: (1)使用Carla自动驾驶模拟器与罗技G29驾驶模拟器搭建了驾驶数据采集平台,通过自动驾驶模拟器搭建了跟驰场景,采集了不同驾驶人的驾驶数据,提取了驾驶行为特征,并对不同驾驶人特征进行了分析。其次,使用基于时间序列的变分自编码器生成数据,对驾驶人数据进行增强,用于后续驾驶人参考模型的训练,以提高驾驶人参考模型精度。 (2)针对目前自动驾驶决策方法不能满足不同驾驶人驾驶习性的问题。首先,对驾驶人统计信息进行分析,发现车头时距能够表征不同驾驶人的驾驶习性。然后采用车头时距设计奖励函数来引导决策模型学习符合驾驶人驾驶习性的策略。再使用双延迟深度确定性策略梯度算法来训练决策模型,实现自动驾驶跟驰决策功能。最后实验结果表明所设计的奖励函数能有效引导决策模型学习跟驰距离与车头时距较为稳定的驾驶人行为特征。 (3)为提升模型的泛化能力及拟人化效果,减少模型的收敛时间。本文结合模仿学习和深度强化学习的优点,提出了使用监督信号引导的深度强化学习拟人化跟驰决策算法。在训练过程中驾驶人参考模型接受时序环境信息并产生监督信号,引导深度强化学习模型向监督信号进行学习。最后分析了训练好的模型的跟驰结果,对比了模型在跟驰过程中的驾驶行为特征与收敛速度,结果表明本文所设计的拟人化决策算法能够使模型具有拟人化效果。同时,与传统深度强化学习相比收敛速度快30%。因此,使用监督信号引导的决策模型能够更快收敛。