面向数据和系统异构的高效联邦学习算法研究

侯铭楷¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

联邦学习（FederatedLearning，FL）是一种新兴的分布式机器学习框架，它允许边缘设备协作训练共享的全局模型，而无需将其敏感数据传输到中央服务器。然而，在实际场景中应用FL面临着数据异构性和系统异构性的重大挑战。（1）由于参与联邦学习的设备地理位置、使用用途等方面的不同，使得设备之间采集的数据是非独立同分布（Non-IID）的，即数据的异构性。这些异构数据对全局模型引入了不可预测的偏差，导致了模型精度的下降以及收敛速度的降低；（2）系统中的设备具有不同的计算能力、能量消耗、通信带宽等物理特性。在需要同步训练的联邦学习迭代过程中，这种系统的异构性增加了服务器和终端设备的协同开销，延长了训练轮的时间，降低了训练效率。目前，有越来越多的人关注于联邦学习的异构性问题，但他们大多致力于解决数据异构和系统异构其中之一。针对上述的问题和挑战，本文考虑了数据异构性和系统异构性对于联邦学习系统的影响，对面向数据和系统异构的高效联邦学习算法进行了探究，提出了多阶段半异步联邦学习算法（Multi-StageSemi-AsynchronousFederatedLearning，MSSA-FL），具体工作如下：（1）针对异构数据导致模型精度下降的问题，本文提出了基于数据补齐的多阶段训练联邦学习算法。数据补齐方法通过补充设备间异构的训练数据，良好的解决了数据异构性问题。然而，目前的这类工作往往需要牺牲数据的安全性以及对数据隐私的保护，违背了联邦学习的初衷。为了在满足隐私保护的要求下实现数据补齐的效果，本文基于“数据不动，模型动”的思想，提出一种多阶段的模型训练方式，即协调模型在多个具有互补数据分布的设备中依次训练，来达到补齐训练数据的目的。为了在无需额外数据知识的前提下确定设备间的互补关系，实现上述的模型训练过程，本文提出了设备组合算法。该算法对设备聚类，并利用辅助数据集推测设备簇的数据分布，最终确定设备簇之间的互补关系，形成组内数据平衡的训练组。为了更有效的维持多阶段训练的效果，本文提出了基于参数重要性的联邦优化算法，来缓解训练过程中模型对数据知识的遗忘。（2）针对由于系统的异构特性导致训练效率降低的问题，本文结合多阶段训练的特点，探究了新的模型更新聚合方式以及设备选择策略。由于系统异构的特性，同步的模型更新方式严重阻塞了训练进程，是降低系统训练效率的主要原因。为此，本文提出了半异步的模型更新方式，并采用一种自适应加权聚合算法解决聚合过程中存在过时模型的问题。通过允许部分模型异步更新，模型聚合更加灵活，聚合频率提高，实现了非阻塞的模型训练和更新。普遍采用的随机设备选择策略虽然公平且简单，但并没有良好的利用强力设备的计算资源，在提高效率方面仍存在较大潜力有待发掘。因此，本文提出了信用限制的快速设备选择算法。该算法通过调整设备的选择概率，增加快速设备被选择的可能。同时为设备引入了信用积分的概念，通过信用防止少数设备被频繁的选择，保障了设备选择的公平性。最后，本文验证了提出算法的有效性。在与其他工作中FL算法的对比结果中显示，MSSA-FL在模型精度、模型的收敛速度以及系统的工作效率方面都得到了提升。在特定实验设置下，本文的方法比基线方法取得了14.33%的模型精度提升，同时收敛时间缺缩短了68.91%。

关键词

联邦学习/数据异构性/系统异构性/半异步模型更新/隐私保护

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

魏晓辉

学位年度

2023

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航