基于强化学习和变换神经网络的无信号交叉口自动驾驶决策研究

于晏浩¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

随着自动驾驶技术的快速发展，确保自动驾驶车辆在复杂城市环境下的安全与效率成为研究的热点。特别是在无信号交叉口场景，车辆需做出快速准确的决策以避免潜在碰撞，挑战尤为显著。本文提出一种结合深度强化学习（DeepReinforcementLearning,DRL）与生成式预训练变换神经网络（GenerativePre-trainedTransformer,GPT）的创新方法，旨在提升自动驾驶车辆在此类场景下的决策性能。面对无信号交叉口车辆交汇繁多的复杂情况，本文将该场景下自动驾驶车辆的决策任务抽象成序列建模任务，利用GPT的特点对序列数据深层次理解后，生成最佳策略。为了提高GPT模型对于驾驶决策任务的适应性，改进DRL算法并生成决策数据集对GPT微调；为了降低DRL训练难度同时提高决策数据集的质量，将复杂的无信号交叉口驾驶环境分解成了5个单任务场景进行仿真试验。全文具体内容如下。首先介绍了仿真环境的搭建，包括无信号交叉口场景的特点分析、路径优化以及任务场景分解与测试场景的定义。通过使用CARLA模拟器结合深度学习的Gym框架，构建了模拟实际场景中面对多种复杂的交通状况的无信号交叉口仿真环境。研究中，首先针对无信号交叉口的场景特点设计DRL决策算法。本文分析了强化学习的核心概念、原理与方法分类，进一步的阐述了深度强化学习算法及其在自动驾驶中的应用。通过分析深度强化学习算法中TD3算法的优缺点，针对较大的低估偏差的问题引入softmax函数，并使用PID引导策略初期加快探索。之后设计策略网络与价值网络，并在策略网络中引入了自注意力机制，用于捕捉多交互场景中智能体与环境的长期依赖关系，使策略网络生成动作更精准。最后根据无信号交叉口场景特点设计合适的状态空间、动作空间和奖励函数。然后，本文详细分析了基于变换神经网络的模型，尤其是其在理解复杂场景和增强决策过程中的潜力，提出通过结合这两种技术的优点，探索自动驾驶车辆在无信号交叉口的优化决策方法，并分析了自注意力机制的原理与架构，设计结合到DRL策略网络中。引入Transformer架构，并根据架构中各模块功能与本文的研究任务，选择使用以Transformer解码器为核心的GPT-2作为驾驶决策模型。通过对改进TD3算法的决策采样生成决策数据集，然后对GPT模型进行离线训练以生成最佳策略，提高在研究场景决策任务中的准确性和适用性。最后，通过在仿真环境中进行广泛的试验，本文验证了所提方法的有效性。结果表明，相比DRL方法，基于GPT模型的驾驶决策在无信号交叉口的性能和泛化能力显著提高。此外，基于GPT的自动驾驶决策系统的透明度和可解释性对比DRL算法也有了增强。本文的贡献在于提出了一个有效地结合深度强化学习与生成式预训练变换神经网络的自动驾驶决策框架，为解决自动驾驶车辆在无信号交叉口的决策问题提供了新的视角和技术路径。未来的研究将进一步探讨这一框架在更广泛自动驾驶场景下的应用及优化。

关键词

无信号交叉口/自动驾驶决策/仿真试验

引用本文复制引用

授予学位

硕士

学科专业

车辆工程

导师

吴坚

学位年度

2024

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航