摘要
车联网是实现车与万物互联的泛在网络,为智能交通系统(ITS)中的诸多应用提供了重要支撑。随着信息技术的高速发展,新一代ITS中还将涌现大量感知、通信、计算、控制一体化的时间敏感类应用,这些应用高度依赖于情境信息的及时交互,因而对车联网中的信息时效性提出了新的要求。为此,以信息年龄为代表的时效性新度量应运而生,并正在成为车联网时严通信研究中的一项重要指标。在ITS的传统架构中,信息的交互往往通过地面网络完成。然而随着城市车辆的迅速增加,地面网络的通信压力也随之增大;并且城市车流量会随人类与社会因素出现巨大波动,导致高峰期时部分地面网络发生拥塞甚至瘫痪。无人机作为基站辅助通信被认为是应对此类极端情况的一项重要技术,而如何对无人机进行灵活的轨迹规划与合理的资源分配就成为了能否提升ITS应用性能的关键所在。基于上述背景,本文以最小化系统期望和信息年龄(ESAoI)为目标,重点关注车联网中多无人机的轨迹规划和资源分配问题,首先在集中式架构下研究了由ITS服务器控制的多无人机轨迹规划和资源分配联合策略;在此基础上,进一步考虑无人机自主决策的场景,研究了分布式架构下基于多智能体深度强化学习算法的多无人机轨迹规划策略。本文的主要工作和创新点归纳如下: 1)提出了集中式架构下多无人机的最优轨迹规划和频谱资源分配联合策略。针对ITS服务器作为控制中心对多架无人机进行集中式控制的场景,设计了无人机的工作流程,将相互耦合的轨迹规划和资源分配变量进行时序上的分离,并基于此流程建模了ESAoI最小化问题。为解决该优化问题,本文结合深度强化学习中的双延迟深度确定性策略梯度(TD3)算法和轮询调度(Round-robin)机制提出了TD3轨迹规划-Round-robin资源分配(TTP-RRA)联合策略,并从数学上证明了RRA在所研究系统中ESAoI最小化方面相较于其他资源分配策略的最优性。基于TTP-RRA,ITS服务器可根据全局状态信息得到各无人机在每个时隙内的最优飞行速度,并向其发送轨迹规划指令;各无人机飞至目标位置后,以通信范围内车辆信息年龄的降序向相应车辆分配频谱资源,直至剩余的频谱资源不足以支持任何车辆进行成功的信息上传为止。仿真结果显示TTP-RRA在智能体训练方面具有良好的收敛性与稳定性,在ESAoI、无人机轨迹等方面的表现均优于其他基准策略。 2)提出了分布式架构下多无人机的最优轨迹规划策略,可避免集中式架构下频繁的信息交互所带来的通信负担。在工作1)的基础上,结合集中式训练、分布式执行的多智能体强化学习架构和单智能体深度强化学习算法TD3,提出了多智能体双延迟深度确定性策略梯度(MaTD3)算法,并在沿用RRA作为资源分配策略的基础上,提出了MaTD3轨迹规划(MTTP)策略。基于所提MTTP策略,各无人机可根据局部观测信息得到各自的最优飞行速度,并飞至目标位置以进行资源分配。仿真结果显示MTTP在智能体训练的收敛性方面优于TTP,在智能体训练的稳定性、ESAoI最小化方面显著优于基于传统多智能体深度强化学习算法的轨迹规划策略。此外,相较于TTP,由MTTP得到的多无人机轨迹也呈现出了鲜明的分布式特性。