摘要
随着第五代移动通信(The5th Generation,5G)商业化进程不断推进,5G将与更多的行业进行垂直交叉,催生了许多与人工智能(Artificial Intelligence,AI)相关的应用,如智慧物联网以及智能网联汽车等。为满足此类新兴应用的需求,无线分布式机器学习将成为下一代移动通信的主要应用场景之一。拥有异构数据和算力的智能终端在完成本地模型计算后,通过无线网络交换模型训练参数,以分布式的方式完成AI模型训练,从而实现在保护用户数据隐私性的同时充分利用终端的算力的目标。然而,在无线网络中部署分布式机器学习将面临着诸多挑战,主要包括:(1)无线网络通信资源以及智能终端的本地计算能力有限,而训练过程中需要交换的模型参数的数据量庞大以及AI模型的计算任务复杂,这些将引起巨大的训练时延;(2)无线分布式学习与传统蜂窝网络的设计目标不同,导致传统无线资源管理算法,如无线资源分配、用户关联以及链路选择等不再是最优,需要重新设计。本论文针对上述问题进行了深入研究,旨在从机器学习的模型优化与无线网络的通信资源管理两个角度提升分布式机器学习的模型训练性能。 首先,针对训练过程中需要交互庞大的模型参数而引起较大通信时延的问题,本文将梯度压缩算法应用到无线分布式学习系统中,提出了一种自适应批量大小选择与梯度压缩算法。具体而言,本文首先分析了批量大小与梯度压缩率对模型训练时延以及训练收敛速率的影响关系,然后在给定训练时延要求下最大化模型的收敛速率,推导了最佳批量大小与梯度压缩率的闭合表达式,并设计了联合批量大小、梯度压缩率以及无线资源分配的优化算法。分析结果表明,与传统的分布式学习不同,批量大小的选择不仅与终端的本地计算能力有关,还与其信道状态信息(Channel State Information,CSI)有关。此外,梯度压缩率也要根据本地计算能力以及CSI进行自适应调整。最后,实验结果表明,本文提出的自适应批量大小选择与梯度压缩算法在保证模型正确率的同时,提高了模型的训练效率,降低了训练所需要的时延。 其次,本文将模型剪枝算法应用到无线分布式学习系统中,提出了一种自适应模型剪枝与用户选择算法。首先,本文从理论上分析了模型训练的性能,包括模型训练时延以及收敛速率。然后在给定训练时延的要求下最大化模型的收敛速率,推导了最佳的模型剪枝率以及无线资源分配的闭合表达式,并提出了基于剪枝率阈值的最优用户选择算法。分析结果表明,与传统的蜂窝网络不同,系统需要根据终端的本地计算能力以及CSI进行用户选择。最后,实验结果表明,本文提出的自适应模型剪枝与用户选择算法可以同时提高模型的训练效率以及正确率。 接着,针对多层无线分布式学习,本文提出一种基于数据分布和信道质量的用户关联机制。根据用户的数据分布状况,考虑了两种不同的场景:独立同分布(Independent Identically Distributed,IID)和非独立同分布(Non-Independent Identically Distributed,Non-IID)。对于IID场景,分析结果表明用户关联仅与模型训练时延有关。本文通过最小化模型训练时延,提出了最优的无线资源分配以及用户关联策略,即终端优先选择具有最大上行信噪比(Signal-to-Noise Ratio,SNR)的基站。对于Non-IID场景,用户关联同时影响模型训练时延以及模型误差,本文通过最小化时延和模型误差的加权和,推导出了最优的用户关联方案,并设计了联合用户关联与资源分配优化算法。分析结果表明,在Non-IID场景中,需要同时考虑信道质量以及用户数据分布来进行用户关联。最后,实验结果表明,本文提出的用户关联机制相较于传统的方案能够获得更快的模型收敛速率以及更高的训练准确率。 最后,针对去中心化无线分布式学习,本文提出一种面向分布式学习的终端直通(Device-to-Device,D2D)链路选择算法。首先分析得到D2D链路选择对单次训练开销和收敛所需要步数的影响关系,其中训练开销包括能耗和时延两个因素。然后,以最小化模型总训练开销为目标,优化本地算力分配、无线资源分配、模型汇聚权重以及链路选择。在给定链路选择下,分别提出了本地算力与无线资源分配的联合优化算法,以及模型汇聚权重的优化算法。在此基础上,本文设计了基于禁忌搜索(Tabu Search,TS)的半启发式链路选择优化算法。最后,实验结果表明,在相同的训练正确率要求下,本文提出的链路选择算法可以减少模型训练的开销。 本论文的探索和研究成果为无线分布式学习的应用提供了一定的理论和实践基础,也为5G向第六代移动通信(The6th Generation,6G)的进一步演进提供了一定的理论支撑和有效的思路。