首页|基于深度强化学习的无人机路径规划算法研究

基于深度强化学习的无人机路径规划算法研究

陈亚东

基于深度强化学习的无人机路径规划算法研究

陈亚东1
扫码查看

作者信息

  • 1. 齐鲁工业大学
  • 折叠

摘要

无人机作为一种集机器人技术、人工智能、传感器和通信系统等先进技术于一体多功能平台,在民用和军用等领域中扮演着重要角色。随着技术水平的不断进步,对无人机的研究涉及了设计、控制、通讯、集群和自主性等方面,以使其能更好的服务于我们的生产生活。然而,无论将无人机投入到何种生产生活场景中,路径规划始终是实现高效和安全操作的关键一环。路径规划,简而言之,就是在满足约束条件的前提下确定最优轨迹,以确保无人机能够避开障碍物以实现任务目标。一种有效的路径规划算法不仅可以提高操作效率,缩短任务执行时间,更能增强无人机操作的整体安全性。近年来,基于学习的路径规划算法的优异表现引起了广泛关注。其算法主要分为基于深度学习的方法、基于模仿学习的方法和基于强化学习的方法三类,其中,深度强化学习框架因其具有实时适应性强、端到端决策等优点,被广泛应用于无人机路径规划任务中,该技术也为无人机向着更加智能化的方向发展提供了强大助力。 然而,基于深度强化学习框架的路径规划算法仍然面临着多重挑战,比如(1)在稀疏奖励环境中,无人机获取的奖励信号有限,难以对状态空间和动作空间进行充分探索;(2)在部分可观测性的任务中,无人机接收的环境信息往往是不完整或者不确定的,这会使探索的效率低下。针对以上问题,本文具体研究内容如下: (1)针对无人机在稀疏奖励环境中探索不充分的问题,本文提出了一种基于信息论的探索算法,名为Entropy Explorer(EE)。该算法基于状态熵和动作熵来生成内在奖励,以补偿外部奖励的稀缺性。为了提高采样效率,进一步构建了一个将EE与TD3算法相结合的框架。最后,在AirSim平台的测试中,TD3-EE算法展现出了显著的优势,其不仅能够激励无人机更全面地探索状态空间和动作空间,更在路径规划任务中取得了优于基准算法的性能。 (2)针对部分可观测环境带来的挑战,本文提出了一种基于在线策略的算法Memory-GIC-PPO。该算法充分发挥长短期记忆网络在记忆历史信息方面的优势,使无人机能够更准确地推断潜在状态并快速掌握环境特征。此外,集成的积分补偿器模块有效减轻了稳态误差的影响。通过在Airsim平台上进行的模拟实验,对所提出的算法的有效性进行了全面评估。结果显示,该算法使无人机在复杂环境中实现了最优路径规划,同时在采样效率和成功率方面均超越了基准算法。

关键词

无人机/路径规划/深度强化学习/信息论/在线策略

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

吕慧

学位年度

2024

学位授予单位

齐鲁工业大学

语种

中文

中图分类号

V2
段落导航相关论文