基于深度强化学习的自适应巡航控制研究

李梓棋¹

扫码查看

作者信息

1. 华南理工大学
折叠

摘要

汽车的智能化已经成为汽车产业的发展潮流，近年来，深度强化学习技术取得了巨大的突破和进步。其能够在不需要车辆动力学模型的条件下，利用深度神经网络在仿真软件内进行控制算法的自学习，并有超过人类驾驶水平的潜力，适合自动驾驶控制算法的开发。为了探索深度强化学习在自动驾驶领域的学习能力和应用潜力，本文以自适应巡航作为场景，开展基于深度强化学习的自适应巡航控制研究。选取了深度确定性策略梯度算法和软性表演者-评论家算法作为自适应巡航控制策略的训练算法，并结合了自适应巡航的特点对算法进行改进，增强了深度确定性策略梯度算法的环境探索性能和软性表演者-评论家算法的训练稳定性。通过对深度强化学习技术的理论基础进行了阐述，结合了深度强化学习技术和自动驾驶系统的特点，对深度强化学习自动驾驶系统框架进行了设计。然后，选取了深度Q学习算法、深度确定性策略梯度算法和软性表演者-评论家算法三种算法，对各个算法的特点进行了分析，并从中选择出两种算法进行控制策略的训练。完成了深度强化学习算法库的设计和编写，为之后自适应巡航控制策略模型的训练打下了基础。对两种深度强化学习算法训练出的自适应巡航控制策略在标准自适应巡航测试场景进行验证，证明了两种控制策略都能完成自适应巡航控制功能。利用lgsvl和PreScan仿真软件搭建了两套深度强化学习仿真平台。设计了自适应巡航控制场景，在lgsvl仿真平台上，对选取的两种算法神经网络模型的超参数进行确定和训练。对深度强化学习的训练过程进行了可行性分析。对两种算法训练出的自适应巡航控制策略在8种场景下进行了验证仿真测试，并分析了两种控制策略的性能和在不同仿真平台下的可迁移性。DDPG和SAC控制算法在三个标准自适应巡航测试场景的平均距离误差分别为30.47m、30.42m、7.02m和30.36m、33.86m、9.65m，能够满足自适应巡航测试的要求。将两种自适应巡航控制策略在实车上进行验证实验，证明了两种控制策略在实车环境中都有一定的可行性，且SAC算法的鲁棒性和舒适性更高。利用32线激光雷达、差分卫星定位系统和惯性导航系统获取与跟随车辆的相对距离和相对速度。DDPG和SAC控制算法在实车实验的平均距离误差和速度误差分别为6.90m、5.33m和16.29m/s、5.59m/s，说明SAC算法在实车环境中的控制效果更好。

关键词

自适应巡航控制/深度强化学习/自动驾驶/神经网络

引用本文复制引用

授予学位

硕士

学科专业

机械工程

导师

赵克刚

学位年度

2021

学位授予单位

华南理工大学

语种

中文

中图分类号

段落导航