摘要
在数据为王的时代,数据已成为推动科学发展的主要推力。受益于数据驱动的深度学习在图像、语音信号、生物医学等多个领域取得了显著的成功。深度学习通过神经网络的众多参数和深层堆叠,发现高维数据中的复杂结构,最终更好的表征现实世界。但是,受制于数据集可能包含敏感数据以及数据集中敏感属性本身就存在不公平的风险,需要大量数据进行漫长时间训练的神经网络面临着隐私泄露和公平性问题。差分隐私技术和公平性方法都从传统保护数据库隐私性和公平性,发展到在深度学习过程的不同阶段保护其隐私性和公平性。近些年,学术界开始探索隐私性和公平性的内在关联,以及隐私性、公平性和效用三者最佳的权衡,并在深度学习模型中实现。 权衡隐私性、公平性和效用的核心在于寻找隐私性和公平性的最佳权衡。但是,实现隐私保护的差分隐私技术将引入噪声,不仅会降低模型的效用,还会导致模型公平性更加失衡。所以,实现隐私性、公平性和效用的最佳权衡需要同时兼顾隐私性和公平性的内在关联,这是第一个亟待解决的问题。在深度学习中实现隐私性和公平性权衡的方法,自然推广至基于深度学习模型的小样本学习中,使得小样本学习达到隐私性和公平性最佳权衡。其中,适用于深度学习的隐私性和公平性权衡方法如何自然推广至小样本学习中,这是第二个亟待解决的问题。 为了解决以上问题,提出基于正则化的隐私公平元学习模型和基于自适应样本的公平过滤协作模型,它们都实现了隐私性和公平性的最佳均衡和适用于小样本学习。(1)仔细梳理关于隐私性和公平性各自的发展脉络以及近些年走向融合的成果,并模块化MAML算法的各个阶段,分阶段应用易从深度学习推广至小样本学习关于隐私性和公平性及其融合的技术;(2)提出基于正则化的隐私公平元学习模型,其包含三个模块:Mixup模块、隐私模块,以及早停模块。Mixup模块主要将访问敏感属性并提升公平性的Fair-Mixup与提升效用的Mixup结合,并证明应用Mixup技术将减弱使用DP-SGD算法训练降低效用的危害。隐私模块使用保护外循环阶段的元学习任务级差分隐私。早停模块,则依据验证集结果呈现阶梯式增量幂律分布,提出隐私性和公平性权衡的早停方法以及元学习早停方法;(3)提出基于自适应样本的公平过滤协作模型,其主要包含两个模块:隐私模块和寻求隐私性和公平性权衡的拉格朗日对偶模块。隐私模块,通过Renyi隐私过滤器实现个性化样本级隐私保护,同时也一定程度上提升了公平性。拉格朗日对偶模块包含隐私模块,通过隐私模块构成原始训练算法,并加之公平性定义约束共同实现拉格朗日对偶算法。通过协作学习形式训练确保训练参数的隐私性和公平性仍保持均衡;(4)通过对小样本数据集进行消融实验,论证了基于正则化的隐私公平元学习模型达到了元学习隐私性、公平性和效用的最佳权衡,基于自适应样本的公平过滤协作模型在协作学习形式中达到了元学习隐私性、公平性和效用的最佳权衡。对其进行对照实验,论证了基于自适应样本的公平过滤协作模型在隐私性、公平性和效用最佳权衡的度量上,要优于基于正则化的隐私公平元学习模型。