基于深度强化学习的环境自适应自动驾驶决策方法研究

方禹杨¹

扫码查看

作者信息

1. 西北工业大学
折叠

摘要

如今，汽车行业正在经历从人类驾驶到辅助驾驶，最终实现全自动驾驶的大变革。自动驾驶，又称无人驾驶，是让计算机在没有任何人类主动操作的情况下实现对汽车安全实时连续控制的技术，具有提升通行效率、节能减排、实现智慧交通等诸多优势。自动驾驶的实现方案可分为基于规则的模块化方法和基于学习的端到端方法。前者依靠人类专家划分环境感知与定位模块、驾驶决策与规划模块、车辆控制与执行模块，并基于经验为每个模块设计确定的实现规则。而后者基于深度强化学习模型实现，泛化性、实时性更优，且避免了人为设计规则造成的性能瓶颈，是自动驾驶技术的未来发展方向。虽然基于深度强化学习的自动驾驶技术已经能够在简单场景下测试应用，但是现实中的智能车处于动态复杂变化的室外环境之中。由于训练数据难以涵盖所有情况，自动驾驶模型遇到新环境容易出现性能明显下降、做出不合理决策的危险现象，研究环境自适应的自动驾驶决策方法尤为重要。自动驾驶任务的环境变化包括同场景下交通密度、天气的持续变化，也包括跨场景的突变等等。因此，模型需要具备一定的泛化性能来适应环境的微弱变化，也要具备演化能力来适应环境的剧烈变化。现有基于深度强化学习的自动驾驶工作聚焦于提升模型在训练环境下的性能，缺乏对环境变化时的适应能力。本工作主要围绕基于深度强化学习的环境自适应自动驾驶决策问题展开探索和研究，针对同场景和跨场景的环境变化问题，分别设计深度强化学习模型泛化与演化方法，再将二者结合共同实现环境自适应目标。具体来说，本文主要从以下三个方面展开环境自适应的自动驾驶决策方法研究。 (1)基于零样本模型泛化的域偏移自适应。针对智能体所处环境变化导致感知数据分布偏移的问题，本文提出基于零样本模型泛化的域偏移自适应方法IARL，在保证模型稳定性的同时提升泛化性。首先，设计具有泛化性的状态图像编码器，将数据偏移分为状态图像风格变化和内容变化，分别引入实例与批处理归一化模块、卷积块注意力模块提取风格无关与内容无关的语义信息。其次，提出零样本模型泛化领域自适应架构，利用原数据和增强数据联合训练模型，使模型兼具稳定性与泛化性。最后，在DeepMindControl套件中四个难度不同的连续控制任务的实验表明，IARL相较于基准方法稳定性相似，但在color-easy、color-hard、video-easy、video-hard环境的绝对泛化性分别平均提升了5.41％、21.68％、8.12％、132.57％,并且数据分布偏移越大，优势越明显。 (2)基于持续模型演化的跨场景自适应。针对智能体跨场景下环境变化导致模型不适用新环境的问题，本文提出基于持续模型演化的跨场景自适应方法SCRL,使模型在不灾难性遗忘源域的情况下通过无监督演化适应目标域。首先，提出自监督持续强化学习架构，在源域，联合训练强化学习目标任务和自监督学习辅助任务，二者共享编码器，在目标域，编码器的参数通过自监督学习更新，用于强化学习。其次，引入Fisher正则化器控制每个参数的更新速率，即对源域重要参数缓慢更新，不重要参数迅速更新。最后，在DeepMindControl套件四个连续控制任务的海洋、公路、沙漠跨场景适应实验中，SCRL相较于基准方法适应性平均提升了168％，同时遗忘性平均下降了74％。 (3)面向自动驾驶的环境自适应决策优化。针对自动驾驶场景下的环境自适应问题，本文提出面向自动驾驶的环境自适应决策优化方法AdaAD,通过模型泛化与演化来适应环境的变化。首先，设计教师-学生网络训练自动驾驶模型，先利用观测图像、全局图像及特权信息训练教师网络，再用教师网络监督训练学生网络。其次，设计演化控制器，基于稳定性、差异性、偏移性筛选目标域的样本数据，为样本数据赋予权重，控制样本对演化的影响。最后，在Carla自动驾驶模拟器的实验表明，AdaAD相较于基准方法对交通密度变化、天气变化、跨城镇变化具有更优的适应能力，任务完成率平均提升了26.76％,行驶距离平均提升了18.95％，碰撞强度平均下降了30.7％。

关键词

智能汽车/自动驾驶/深度强化学习/环境自适应

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

郭斌

学位年度

2024

学位授予单位

西北工业大学

语种

中文

中图分类号

段落导航