端到端免模型深度强化学习在自动驾驶中的应用研究

魏兆吉¹

扫码查看

作者信息

1. 东北大学
折叠

摘要

自动驾驶技术一直是人们在汽车领域不断探索的方向之一，而完全的自动驾驶汽车是自动驾驶技术的终极目标。近些年随着人工智能的发展，自动驾驶技术迎来了新一轮革命性的提升，自动驾驶汽车正由想象走向现实。驾驶策略是自动驾驶技术的核心问题，它要求具有较高的鲁棒性以应对各种复杂的驾驶环境，但基于规则的控制策略难以胜任。目前，结合了深度学习和强化学习的深度强化学习算法在许多领域都取得了巨大进步，它通过以往经验进行自我学习，对各种驾驶环境具有较强的鲁棒性，并在使用如图像等高维输入时表现出较好的性能。鉴于这些优势，本文将深度强化学习算法应用于自动驾驶问题的研究中，主要研究内容如下: （1）鉴于仿真平台对自动驾驶研究的重要性，本文从场景信息、传感器配置、车辆的控制方式和算法的适用情况等几个方面详细对比总结了目前常用的5种不同的自动驾驶仿真平台，根据研究需要选定了2种典型驾驶场景用于后续实验。（2）驾驶辅助系统目前已经商业化应用于现实的汽车中，本文基于组合各种驾驶辅助系统实现了高速公路场景下的自动驾驶，提出了一种通过深度强化学习来协调各种驾驶辅助系统的驾驶策略，该驾驶方案采用相机和雷达进行环境感知,实现了在模拟的高速公路环境下智能体无碰撞，安全高速的行驶。作为对比，本文还设计了仅用相机和仅用雷达进行环境感知的驾驶方案，实验结果表明无论在有无噪声的条件下，多重感知方案表现更好，系统冗余性更强。（3）为了研究在更加真实的环境下的自动驾驶问题，本文提出基于环境信息编码结合深度强化学习的端到端驾驶策略，通过预训练编码器将智能体的动作空间压缩到一个合理的范围内，能够提高其探索效率。相较于使用预训练模仿学习的方法，使用编码器只需很少的数据，并且不需要复杂的图像预处理技术，实现简单。对于强化学习智能体在十字路口无法按指定路径转向的问题，本文提出了两种基于转向指令的强化学习模型，本文称之为条件强化学习模型，即command_input模型和command_branch模型。实验表明，这两种模型都在Carla平台上完成长达1245米的巡航任务，条件强化学习模型具有较强的鲁棒性和一定的实用价值。本文基于免模型深度强化算法实现了特定场景和不限场景的端到端自动驾驶,说明深度强化学习方法在自动驾驶中的应用研具有现实意义。

关键词

自动驾驶/端到端系统/深度强化学习/变体自编码器

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

王骄

学位年度

2021

学位授予单位

东北大学

语种

中文

中图分类号

段落导航