摘要
随着万物互联时代的来临,物联网、大数据和云计算等先进信息技术的迅猛发展造成全球数据量的爆发式增长。然而,传统的机器学习方法依赖于中心化收集和存储数据,容易带来严重的隐私风险。同时,由于行业竞争以及隐私保护法规的实施,导致数据共享变得极为困难,“数据孤岛”现象普遍存在。在此背景下,联邦学习作为一种保护数据隐私的分布式机器学习方法应时而生,它允许各个客户端在不暴露原始数据的情况下,协作训练一个共享模型。但联邦学习目前仍面临着诸多难题,特别是在数据异构和类不平衡场景下的表现欠佳。此外,半诚实的中央服务器可能会导致数据隐私泄露。为了解决上述问题,本文的主要工作和创新如下: (1)针对联邦学习中的数据异构和类不平衡联合问题,本文提出基于类激活图的类不平衡联邦学习算法FedGCS。该算法通过利用头类的信息对尾类的特征空间进行扩充和增强,使得客户端上训练数据的分布实现近似类平衡,进而缓解全局和局部类不平衡带来的影响。此外,该算法通过引入尾蒸馏损失,在客户端本地训练过程中进一步保留全局模型中关于尾类的知识,从而减轻本地模型对于头类的偏向。同时,还对本地模型的更新幅度进行一定程度的限制,避免由过多更新导致全局模型不收敛的问题。最后,在具有不同全局类不平衡程度和不同数据异构程度的数据集上对该算法进行实验验证。实验结果表明,FedGCS能够有效缓解“客户端漂移”现象,并在不牺牲头类性能的前提下改善尾类性能,实现全局模型综合性能的提升。 (2)针对联邦学习中的隐私保护问题,本文提出基于条件生成对抗网络的隐私保护联邦学习算法FedSCG。该算法将每个客户端的本地分类模型分解为私有提取器和公共分类器,并在本地额外训练一个生成器。客户端仅与服务器端共享分类器和生成器,并将直接接触原始数据的提取器保留在本地,从而加强隐私保护。该算法在服务器端使用知识蒸馏聚合各个客户端的分类器和生成器,并在客户端训练过程中将嵌入在全局生成器的共享知识整合到提取器中,来提高分类模型性能。此外,该算法通过省去传统CGAN中判别器的训练步骤,来降低局部计算成本。并且,还在客户端使用生成器对本地数据进行增强,以优化分类器。最后,在IID和Non-IID设置的数据集上对该算法进行实验验证。实验结果表明,FedSCG在实现具有竞争力的模型性能的同时,也能保持高水平的隐私保护。