摘要
随着物联网(Internet of Things,IoT)技术的不断发展,传感器节点被广泛部署在不同的场景,如环境监测,灾害通信和智能城市等。如何根据不同场景需求,在满足设备能量消耗、时延和可靠性等性能要求的情况下,合理地设计节点数据收集方法是IoT网络的主要挑战之一。为了满足这些要求,使用无人机(Unmanned Aerial Vehicles,UAVs)作为移动基站进行数据收集被认为是一种有前景的解决方案。 无人机具备高度自由的飞行能力,能够覆盖广阔的区域,相对于固定基站和地面移动基站,能够更好地接近和访问分布在不同地点的节点。通过规划无人机的飞行路径,可以确保无人机以最佳方式访问节点和收集节点数据,从而最大限度地减少传感器的能源消耗、减少数据收集的传输时间和延长节点的使用寿命等。但是,传统的无人机飞行路径规划方法,如蚁群优化(Ant Colony Optimization, ACO)算法,难以适配动态变化的传感器节点环境,无法对环境精确建模;类似蚁群优化这样的迭代算法难以收敛得到稳定且通用的解,导致收集方法性能下降。并且规划无人机的飞行路径,即旅行商及其变体问题,是一个NP完全(NP-Complete)的问题,难以直接求解。 为了应对上述困难,本文采用深度强化学习(Deep Reinforcement Learning, DRL)来规划无人机飞行路径,解决数据收集问题。深度强化学习能够将动态环境下的无人机路径规划问题建模为在线决策问题,通过训练智能体来优化策略,达到系统目标。本文分别在两种常见的无人机数据收集场景进行研究:单无人机对无线传感网络(Wireless Sensor Networks,WSNs)进行数据收集和多无人机协作对节点进行数据收集: 1)在单无人机对无线传感网络进行数据收集的场景中,本文将无人机的飞行路径规划问题建模成了一个马尔可夫决策过程(Markov Decision Process, MDP),使用智能体在线决策悬停位置,以解决环境难以精确建模的问题。并且基于能量均衡路由协议(Energy-Balanced Routing Protocol,EBRP)算法设计了一个能量高效的多跳路由算法,避免了EBRP算法中数据包在环路的大量无效转发,减少了无效的能量消耗。通过不断地调整无人机的悬停位置和无线传感网络的多跳路由,从而最大化无线传感网络的存活时间。并且经过实验验证本方法的有效性。 2)在多无人机协作数据收集的场景中,本文将多无人机的飞行路径规划问题建模成一个宏行动分布式部分可观察马尔可夫决策过程(Macro-action Decentralized Partially Observable Markov Decision Process,MacDec-POMDP),以解决多智能体的异步决策问题,并使用动作掩码机制来防止无人机能量消耗,提高数据效率,加快训练过程。并且节点使用后向散射通信(Backscatter Communication, BC)来传输数据,以解决节点电池受限问题。在无人机能量限制和动态环境下,最小化数据收集任务完成时间。通过实验验证,获得了良好的效果。