摘要
数据时代的到来和计算机性能的提升促进了人工智能的发展。然而,随着数据孤岛问题的出现和隐私保护的需要,传统分布式学习受到巨大挑战。在这一背景下,联邦学习作为一种新的分布式学习范式应运而生。联邦学习不再通过收集分散的数据集进行训练,而是通过共享模型参数实现模型训练,并期望通过此方式达到保护隐私信息的目标。但是联邦学习中的梯度等模型信息仍包含着数据信息,推理攻击等攻击手段仍然威胁着数据隐私。为了进一步加强隐私保护,差分隐私开始应用于联邦学习领域,但是也产生了新的问题,一方面,高维模型导致了差分隐私预算爆炸问题,另一方面,固定剪切值对梯度形成了噪声淹没现象。除数据孤岛外,随着数据的指数增长,客户在海量信息中面临选择困境。图推荐系统可以有效解决这一困境。然而,由于客户本地图结构异构性和隐私保护需求之间的矛盾,图推荐系统在联邦学习环境下的发展极具挑战性。 针对上述问题,本文的具体研究内容如下: (1)基于双洗牌器的差分隐私联邦学习协议设计。针对差分隐私联邦学习中的隐私预算爆炸问题,本文在经典联邦学习的基础上引入了双洗牌器模型和控制矩阵概念。控制矩阵由服务器生成,负责控制客户梯度的选择上传。双洗牌器分别对控制矩阵和客户梯度进行混洗,实现服务器对控制矩阵不可见和梯度对服务器的匿名化。然后,本文结合洗牌器模型、子抽样定理等理论,推导出该协议新的隐私预算边界。实验表明,该方案可以在较小的隐私预算下能够实现较高的模型精度。 (2)差分隐私自适应剪切机制设计。针对固定剪切值给梯度造成噪声淹没现象,本文提出了一种自适应剪切机制。在每次迭代中,该方案根据前一轮噪声梯度大小将梯度进行分簇。然后,根据差分隐私的后处理特性计算簇内梯度的剪切边界。因此,该方案不会消耗更多的隐私预算。真实数据集上进行实验表明,在相同隐私保护效果下,该方案能够提高模型精确性。 (3)隐私保护联邦图推荐系统设计。本文首先提出了基于深度学习图卷积协同过滤推荐系统模型DGCF。该模型主要包括DEEP模块与GCN模块,分别用于学习高阶特征交互和捕捉协同信号。然后,基于DGCF,本文设计了一个隐私保护联邦图推荐系统PFGRS。该系统利用可信执行环境和差分隐私技术来扩展客户端子图信息。随后通过两阶段训练策略完成不同客户端内节点特征共享。实验证明了DGCF模型以及PFGRS系统的有效性。