首页|无人机自主引导跟踪与避障的近端策略优化

无人机自主引导跟踪与避障的近端策略优化

扫码查看
针对无人机地面动态目标跟踪问题,建立了远距离自主引导与近距离伴飞避障2个阶段的马尔可夫决策过程模型。在此基础上,提出了一种改进的近端策略优化(PPO)算法。考虑到无人机接收到的数据具有时序性且环境状态存在上下文关联,所提算法采用长短期记忆(LSTM)网络,通过无人机与目标的实时位置关系等状态信息来计算奖励值,更新网络参数,并进行自适应优化迭代。通过基于ROS系统的仿真测试平台进行试验,结果表明:所提算法安全有效地实现了侦察任务全过程的自主机动,与传统的PPO算法相比,LSTM的引入缩短了模型训练时间,跟踪与避障的效率明显提高,进一步加强了算法的鲁棒性、准确性和实时性。
Proximal policy optimization for UAV autonomous guidance, tracking and obstacle avoidance

胡多修、董文瀚、解武杰

展开 >

空军工程大学研究生院,西安710038

空军工程大学航空工程学院,西安710038

多旋翼无人机 自主引导 马尔可夫决策过程 近端策略优化 长短期记忆

2023

北京航空航天大学学报
北京航空航天大学

北京航空航天大学学报

CSTPCDCSCD北大核心
影响因子:0.617
ISSN:1001-5965
年,卷(期):2023.49(1)
  • 4
  • 17