基于深度强化学习的无人机路径规划算法研究

陈亚东¹

扫码查看

作者信息

1. 齐鲁工业大学
折叠

摘要

无人机作为一种集机器人技术、人工智能、传感器和通信系统等先进技术于一体多功能平台，在民用和军用等领域中扮演着重要角色。随着技术水平的不断进步，对无人机的研究涉及了设计、控制、通讯、集群和自主性等方面，以使其能更好的服务于我们的生产生活。然而，无论将无人机投入到何种生产生活场景中，路径规划始终是实现高效和安全操作的关键一环。路径规划，简而言之，就是在满足约束条件的前提下确定最优轨迹，以确保无人机能够避开障碍物以实现任务目标。一种有效的路径规划算法不仅可以提高操作效率，缩短任务执行时间，更能增强无人机操作的整体安全性。近年来，基于学习的路径规划算法的优异表现引起了广泛关注。其算法主要分为基于深度学习的方法、基于模仿学习的方法和基于强化学习的方法三类，其中，深度强化学习框架因其具有实时适应性强、端到端决策等优点，被广泛应用于无人机路径规划任务中，该技术也为无人机向着更加智能化的方向发展提供了强大助力。然而，基于深度强化学习框架的路径规划算法仍然面临着多重挑战，比如(1)在稀疏奖励环境中，无人机获取的奖励信号有限，难以对状态空间和动作空间进行充分探索;(2)在部分可观测性的任务中，无人机接收的环境信息往往是不完整或者不确定的，这会使探索的效率低下。针对以上问题，本文具体研究内容如下: (1)针对无人机在稀疏奖励环境中探索不充分的问题，本文提出了一种基于信息论的探索算法，名为Entropy Explorer(EE)。该算法基于状态熵和动作熵来生成内在奖励，以补偿外部奖励的稀缺性。为了提高采样效率，进一步构建了一个将EE与TD3算法相结合的框架。最后，在AirSim平台的测试中，TD3-EE算法展现出了显著的优势，其不仅能够激励无人机更全面地探索状态空间和动作空间，更在路径规划任务中取得了优于基准算法的性能。 (2)针对部分可观测环境带来的挑战，本文提出了一种基于在线策略的算法Memory-GIC-PPO。该算法充分发挥长短期记忆网络在记忆历史信息方面的优势，使无人机能够更准确地推断潜在状态并快速掌握环境特征。此外，集成的积分补偿器模块有效减轻了稳态误差的影响。通过在Airsim平台上进行的模拟实验，对所提出的算法的有效性进行了全面评估。结果显示，该算法使无人机在复杂环境中实现了最优路径规划，同时在采样效率和成功率方面均超越了基准算法。

关键词

无人机/路径规划/深度强化学习/信息论/在线策略

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

吕慧

学位年度

2024

学位授予单位

齐鲁工业大学

语种

中文

中图分类号

段落导航