基于深度强化学习的无人机集群网络资源优化技术研究

张帅¹

扫码查看

作者信息

1. 北京工业大学
折叠

摘要

无人机(Unmanned Aerial Vehicle，UAV)集群通信具有网络拓扑高动态、机动灵活、易于部署等自身的独特性，可有效扩展系统容量，缓解地面基站负载，能够在交通监控、农业物联网、电力线路巡检、灾区应急通信等场景发挥重要作用。在无人机集群网络中，大量数据传输带来的流量拥塞，以及数据传输时链路间的互相干扰，会降低无线信号传输质量，造成功率资源、频谱资源以及计算资源利用效率下降，大大降低了网络整体性能。资源优化管理是提高UAV网络性能的重要技术手段。在此应用背景下，本论文针对无人机集群通信网络，研究基于深度强化学习的网络资源优化技术。具体地，本文完成的主要工作如下。首先，针对无人机集群网络节点链路间干扰导致资源利用率下降的问题，从空域波束和功率域出发，研究了基于深度强化学习的联合波束成形和功率控制的UAV集群网络抗干扰通信技术。根据问题建立了UAV集群网络的联合波束成形与功率控制模型，考虑到其是非凸优化问题，为了避免穷举搜索并提高动作探索效率，提出基于置信区间上界(Upper Confidence Bound，UCB)的竞争深度Q网络(Dueling DQN)的深度强化学习算法来进行求解。仿真结果表明，采用UCBDueling DQN的联合波束成形和功率控制的性能优于一般的DQN和Dueling DQN算法，其通过波束和功率资源联合优化来有效抑制干扰，从而提升了无人机集群网络性能。其次，由于无人机集群网络中频谱的稀缺性，频谱复用也会造成链路间的干扰，为了合理分配频谱资源和功率资源，从频域和功率域出发，研究了基于深度强化学习的联合频带选择和功率控制的无人机集群网络抗干扰通信技术。为了能够将该技术应用到连续的动作空间，提出了能同时优化离散和连续动作变量的学习框架。该框架可分为两层，其顶层采用基于UCB Dueling DQN的算法进行离散动作空间的频带选择，底层采用基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)的算法实现连续动作空间的功率分配。仿真结果表明所提基于UCB Dueling DQN和DDPG的联合频谱和功率资源优化方法有利于抑制干扰，可以快速提升链路平均频谱效率，提高无人机集群网络通信性能。最后，针对无人机集群网络中计算资源受限导致高处理延迟的问题，为了在复杂的动态环境中合理利用有限的计算资源，提出了基于D-DDPG的计算资源卸载优化算法，利用移动边缘计算技术将用户端的部分任务卸载到无人机的服务器端，通过联合优化用户调度和任务卸载率来最小化网络任务处理延迟，能充分利用用户端的计算能力，获得最优的计算卸载策略，降低任务处理的时延，同时，可以根据环境变化调整无人机服务器端计算任务的大小以提高UAV能效。仿真结果表明，与其它算法相比，所提出的D-DDPG计算资源卸载优化算法降低了任务处理延迟，提高了UAV网络通信和计算的性能。

关键词

无人机集群网络/资源优化/深度强化学习/移动边缘计算

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

黎海涛

学位年度

2022

学位授予单位

北京工业大学

语种

中文

中图分类号

段落导航