基于差分隐私的数据分析技术研究

林思昕¹

扫码查看

作者信息

1. 广州大学
折叠

摘要

随着国家大数据战略的发展，数据已成为一种蕴含巨大价值的生产资料，大数据分析也正在社会生产、国家管理等方面发挥重大作用。然而，在对涉及敏感信息的大数据分析过程中往往存在隐私泄露的风险。差分隐私（DifferentialPrivacy，DP）凭借其对隐私保护提供的严格定义，被广泛应用在数据挖掘、机器学习等众多领域。相较于传统的匿名化方法和密码学方法，它能够提供更为严谨的隐私保护度量方法和更小的计算开销。中心化差分隐私依赖于可信的第三方服务器，通过第三方服务器对原始数据聚合分析后的结果添加噪声以避免泄露隐私。一旦第三方服务器受到攻击，个体隐私依然面临泄露的风险。相反，本地化差分隐私（LocalDifferentialPrivacy，LDP）从数据源头，通过对源数据、数据特征等添加噪声，实现个体数据隐私保护的效果。目前，本地化差分隐私已被谷歌、微软等大型企业采用，以保护用户数据不被泄露。而如何在保证个人数据的隐私信息前提下，兼顾并提升大数据分析质量已成为的重要研究问题。因此，针对大数据分析任务中数据量大、数据种类多、数据隐私性和可用性难以兼顾等问题，本文针对差分隐私下的大数据分析技术展开了研究，主要研究成果如下：（1）针对结构化数据量众多，其频率估计算法需提供可靠的隐私保证，以及更高的查询准确性需求，本文提出了一种基于本地化差分隐私的两阶段轻量级频率估计算法。该算法通过抽样训练轻量级的频率预测模型，区分客户端持有的数据项频率，从而减少存储在草图中的哈希冲突，进一步提升频率估计算法准确性。实验表明，本地化差分隐私的轻量级频率估计算法可以提升结构化数据的频率估计精度，并在数据域较大的情况下表现更为优异。（2）针对非结构化数据的信息来源多样、数据种类繁多、隐私保护需求各异的现状，本文设计了一种基于本地化差分隐私的多源数据融合算法。该算法通过本地化差分隐私对不同来源的数据采取不同的噪声添加方式，并设计预聚合框架对不同来源数据的隐私预算进行重分配，以此降低噪声对多源数据分析任务结果的影响。实验表明，相较于传统的多源隐私数据融合算法，该算法能够提升多源数据分析任务的质量。（3）基于以上两部分研究内容，本文从全局角度定义隐私保护效果与大数据分析服务质量之间的矛盾问题，研究隐私保护-价值挖掘均衡的数据共享激励机制。该机制从数据可用性、数据分析质量、效能代价等方面构建全局博弈模型，并利用单次博弈和重复博弈计算纳什均衡值，从而帮助所有参与者找到效用最大化的最优策略。实验表明，该机制可以在保证用户数据隐私的前提下，激励用户使用高质量的数据积极参与训练。

关键词

差分隐私/数据分析/频率估计/多源数据融合/博弈论/隐私保护

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

殷丽华

学位年度

2023

学位授予单位

广州大学

语种

中文

中图分类号

段落导航