摘要
随着算法的不断创新和硬件设施的完善,机器学习技术已经在计算机视觉、自然语言处理、推荐系统等人工智能领域取得了显著的进展。然而,目前机器学习技术的成功往往依赖于大规模数据的支持,这些数据为人工智能模型提供了丰富的样本,从而提高了模型的训练效果。但是,在实际应用中,数据规模往往有限,或者数据缺失重要特征信息,这会严重影响人工智能模型的效果。同时,由于数据集中往往蕴含大量用户的个人敏感信息(例如种族、宗教、政治倾向等信息),数据采取直接共享的方式进行集中式场景训练可能导致严重的个人隐私泄露。联邦学习的核心思想是在多个数据拥有者参与模型训练的过程中,仅通过交互模型参数进行联合训练,避免了原始数据的流动,实现了数据隐私的目的,同时提高了机器学习模型的性能。 尽管联邦学习已经被广泛应用于分布式机器学习领域,但已有研究表明该技术仍然存在一定的数据隐私安全隐患。例如,在模型参数和梯度共享过程中,恶意敌手可以通过重构攻击还原用户的本地数据,从而泄露隐私信息。此外,腐败服务器也可能篡改模型参数和梯度等信息,而客户端难以对其进行完整性验证。在联邦学习中,合谋者可能窃取用户隐私并共享模型参数和梯度等信息,以提高模型性能,但这种行为也会导致其他参与方的隐私泄露。为了解决上述问题,本文针对联邦学习的典型场景(横向联邦学习、纵向联邦学习),对如何实现隐私保护、算法效率以及模型精度之间的平衡进行深入研究,并取得了如下创新成果: (1)针对横向联邦学习场景存在的安全聚合问题,提出面向秘密共享和异常检测的去中心化联邦学习方法。该方案通过将模型参数信息秘密共享至多方实现隐私保护,能在“诚实但好奇”的敌手假设下抵御合谋攻击。此外,为了解决模型参数的完整性验证问题,客户端将局部模型参数的验证码进行秘密共享,并通过比对全局模型参数的验证码进行完整性验证。最后,利用异常检测技术分析服务器下发的模型参数,发现和排除潜在的腐败服务器。相较于现有工作,本方案的优势在于验证聚合结果的完整性,检测腐败服务器的恶意篡改行为,并且首次利用异常检测技术分析模型参数。 (2)针对纵向联邦学习场景梯度存在隐私泄露的问题,提出基于线性纵向联邦学习的隐私保护方法。该方法通过引入半可信第三方管理密钥,两方交互过程中使用同态加密技术和差分隐私技术对中间计算结果、梯度进行加密和扰动,在保证建模效果的同时实现隐私保护的目的。相较于现有基于同态加密技术缺乏可信第三方问题、基于差分隐私技术存在建模效果不佳等问题,本工作优势在于解决了在现实生活中难以找到可信第三方的问题,增强了隐私保护效果,并通过敏感度上界计算和扰动方法优化,降低噪音规模,保证了模型精度。