隐私保护与安全增强的联邦学习技术研究

赵令辰¹

扫码查看

作者信息

1. 武汉大学
折叠

摘要

随着移动互联网的普及，智能手机、可穿戴设备、智能传感器等一系列现代终端设备每时每刻都在生成大量的数据。依托海量的数据与硬件计算能力的提高，机器学习技术进入了飞速发展的黄金阶段，并已经在人们日常生活中发挥了广泛的作用。使用联邦学习技术，允许多个数据持有者协同训练学习模型，有助于破除数据孤岛，解决单独学习时存在的数据数量与质量不足等问题。然而，机器学习算法本身的设计缺陷，以及复杂学习模型工作原理难以理解等因素，导致现有联邦学习框架中存在隐私数据泄露、学习结果偏差等安全隐患。因此，如何提高联邦学习系统的安全性，使海量用户数据发挥充分的价值，是当前亟须解决的问题。鉴于此，本文以构建安全可靠的联邦学习系统为最终目标，从信息安全三要素——机密性、完整性、可用性三方面出发，分别对联邦学习中训练数据机密性、计算过程完整性、学习结果可用性开展研究。本文的主要内容和创新点总结如下：（1）针对学习模型可能导致隐私训练数据信息泄露的问题，本文分别针对神经网络与梯度提升决策树两种典型机器学习算法，提出了相应的隐私保护模型训练方案。对于神经网络算法，本文提出使用差分隐私技术扰动学习任务目标函数以模糊训练结果，防止上传结果泄露其隐私信息；此外，使用差分隐私技术随机选择本轮聚合的参与者更新结果，防止聚合结果泄露参与者数据质量与分布等信息。对于梯度提升决策树算法，本文基于不同子树构建过程相对独立的特点，提出不同参与者按序训练的协同训练方法，并通过迭代划分训练数据集与并行传输模型等方式，降低差分隐私预算消耗与通信时间。（2）针对联邦学习中参与者可能通过伪造更新结果获取不当利益的问题，本文提出了一种基于抽样的训练过程完整性验证方法，随机抽取训练过程中多次不同的迭代并使用基于密码学的可验证计算技术进行验证，以高概率确保参与者完成训练任务；为降低每次验证的计算开销，本文设计了一种针对机器学习模型的简短承诺技术，并从理论上证明了其安全性；此外，还针对神经网络、支持向量机等五种典型机器学习算法分别设计了优化的电路表达形式，以尽可能提高验证效率。（3）针对联邦学习中攻击者可以通过设计特殊上传结果破坏学习模型功能的问题，本文提出了一种基于交叉检验的异常参与者检测方法。服务器在收到参与者返回的更新结果后，将这些结果随机发送给其他多个参与者进行测试，并根据测试结果调整模型聚合时不同参与者的权重参数。为避免参与者拥有的数据为非独立同分布时检测失效的问题，本文提出了一种根据参与者持有数据分布动态调整检测任务分配的方法；此外，本文还通过将多个上传结果聚合成少数几个子模型并添加差分隐私噪声的方式，在保护参与者隐私的同时降低检测过程带来的通信开销。

关键词

联邦学习/隐私保护/差分隐私/可验证计算/数据污染攻击

引用本文复制引用

授予学位

博士

学科专业

网络空间安全

导师

王骞

学位年度

2021

学位授予单位

武汉大学

语种

中文

中图分类号

段落导航