基于深度强化学习的自动驾驶风格化跟驰决策研究

耿盼盼¹

扫码查看

作者信息

1. 长安大学
折叠

摘要

近年来中国机动车保有量快速增长，导致交通安全和拥堵等问题日益严峻。车辆跟驰作为交通场景中的重要部分，仅通过优化驾驶员的驾驶行为便可以达到提高交通效率并缓解交通压力的目的。目前，车辆跟驰行为的研究主要分为基于数学和物理方法构建的传统跟驰模型和基于数据驱动的跟驰模型。然而，这些模型的设计模式单一，缺乏对车辆个性化跟驰需求和多目标优化的考虑。针对上述问题，本文基于深度强化学习提出了一种结合驾驶风格的跟驰决策方法，旨在能够满足不同风格驾驶人的跟车需求，使跟驰性能得到更好的优化。具体研究内容如下：（1）针对跟驰模型数据集提取及风格化数据聚类识别问题。首先，选取NGSIM（Next Generation Simulation）中I-80数据集作为原始数据并展开误差分析，采用Savitzky-Golay滤波算法进行数据重构，防止脏数据混入训练样本。其次，选择中小型车作为研究对象，根据筛选规则提取跟驰事件，以相对速度、车头时距和跟车间距作为聚类特征参数，利用K-means算法将数据划分为激进型、平稳型和保守型三类。最后，本文基于多种分类识别模型，对三种风格化跟驰数据按照7:3的比例展开训练和测试，结果表明K-means聚类效果显著，三次 SVM（Support Vector Machine）模型对风格化数据的识别率高达98.8%。（2）针对驾驶员对跟驰过程中安全性、行车效率、节能性和舒适性的需求，提出了一种基于深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法的自动驾驶多目标跟驰决策模型。首先，对跟驰车辆的状态空间、动作空间和模型网络展开分析与设计。考虑到车辆跟驰过程中的多目标需求，综合安全、效率、节能、舒适指标作为DDPG跟驰决策模型的奖励函数，并制定基于跟车间距阈值的避碰策略，保障车辆跟驰过程中的绝对安全。然后，在SUMO（Simulation of Urban MObility）中构建仿真环境来模拟车辆跟驰过程，实验数据表明，采用DDPG跟驰决策模型的车辆与人类跟驰数据相比，行车效率更高且舒适性得到显著改善，在安全避碰策略的辅助下跟驰过程变得更加安全。相对于智能驾驶人（Intelligent Driver Model，IDM）模型，采用DDPG跟驰决策模型的车辆油耗平均节省12.28%，其行车效率和舒适性有所提升。（3）针对目前自动驾驶车辆跟驰模式单一，缺乏对乘客个性化跟驰需求考虑的问题，提出了一种基于驾驶员风格的自动驾驶跟驰策略。首先，以聚类后的三种风格跟驰数据作为切入点，对安全性、行车效率、节能性和舒适性的特征参数进行校准，设计了不同风格DDPG跟驰模型的奖励函数。将风格化数据以7:3的比例划分为训练集和测试集，在SUMO平台展开模型验证实验。实验结果表明，三种风格的多目标奖励值均达到收敛状态，不同风格间的跟驰运动参数分布差异明显。其次，考虑到每种风格跟驰模型对指标偏重程度存在差异化，设计了一种融合粒子群算法（Particle Swarm Optimization， PSO）的DDPG风格化跟驰优化模型，通过优化多目标权重系数求解最优权重组合，在风格化的基础上完成进一步的模型优化，实现每种风格跟驰模型的多目标奖励均衡。实验结果表明，融合PSO算法的DDPG跟驰模型不仅实现快速收敛，而且提升了模型对于驾驶风格的适应性，各指标奖励值得到有效的平衡优化，实现了风格化前提下的收益最大化。

关键词

自动驾驶/跟驰决策/深度强化学习/深度确定性策略梯度

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

安毅生

学位年度

2023

学位授予单位

长安大学

语种

中文

中图分类号

段落导航