摘要
近年来,随着各行各业数据平台的建设,大数据驱动的机器学习技术推动现实社会逐步走向信息化和智能化,如语音识别、路径导航、人脸识别等。随着人工智能的应用领域的不断扩宽,深度学习技术逐渐发展和完善,传统数据集中式的机器学习引发社会对个人隐私数据安全的担忧。由于用户隐私数据泄露以及行业竞争私自使用隐私数据等问题频发,政府相继出台法律规定限制隐私数据的流通与共享,造成企业间“数据孤岛”现象,协同隐私数据联合AI建模成为挑战。联邦学习作为一种新型隐私保护的分布式机器学习范式,能够在协同大规模设备共同训练机器学习模型的同时保障用户数据安全,使用户从参与联邦学习训练中获益。 本文主要针对联邦学习中数据非独立同分布问题进行研究。联邦学习通过协调不同用户或企业的设备共同训练,设备间数据分布及数据集规模的差异会导致本地建模的参数优化后具有偏差,经由联邦学习协作训练后难以满足全局优化目标,导致模型收敛速度以及模型精确度显著下降。针对非独立同分布数据问题,本文提出一种基于条件生成对抗网络的联邦学习数据增强方法,以提高非独立同分布数据情况下的联邦学习算法性能。本文主要工作如下: ①通过划分数据集构造模拟非独立同分布数据,通过对比算法在不同数据划分情况下的模型性能,验证了联邦学习算法在非独立同分布数据下存在性能下降及难以收敛到全局最优目标的现象。 ②提出了一种新颖的联邦学习数据增强方法,根据用户本地数据分布作为条件信息,在本地通过条件生成对抗网络模型指导生成数据,减轻用户间的数据分布差异,通过差分隐私加噪的方式保障生成对抗网络训练数据不被泄露。通过在MNIST、CIFAR-10数据集上进行实验验证该方法在非独立同分布数据下能实现稳定的性能提升。 ③设计并实现了基于隐私保护的移动应用个性化推荐算法。提出的应用推荐算法能在保护用户数据不离开本地的情况下学习到全局用户行为特征的共享表示,同时能针对不同用户设备间的非独立同分布行为数据进行个性化建模。采集数据构建真实非独立同分布应用序列数据集Rec4APP,实验验证,该算法在Rec4APP数据集上相较于传统基于独立同分布的算法具有更高的模型预测精度。