满足差分隐私的一种频繁序列挖掘算法

An Algorithm for Mining Frequent Sequence under Differential Privacy

李玉伟 ¹杨庚²

扫码查看

作者信息

1. 南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京 210023
2. 南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京 210023;江苏省大数据安全与智能处理重点实验室,江苏南京 210023
折叠

摘要

在这个大数据时代,无论是数据量还是数据种类都在以极快的速度增长,因此数据挖掘技术在各行各业(例如移动轨迹预测、广告投递、医疗诊断等方面)中都得到了广泛的运用.频繁序列挖掘是数据挖掘领域中的一个重要方向,但是在挖掘过程中和发布序列数据时很有可能会泄露一些用户的隐私信息,产生严重的安全隐患.Dwork等人提出的差分隐私模型可以为数据挖掘的隐私保护提供安全保证,与传统的隐私保护方法(基于k-匿名及其扩展分组模型)相比,该模型通过添加噪音对数据进行扰动,即使攻击者拥有最大的背景知识也能达到差分隐私保护的目的.文章设计了一种渐进式序列挖掘差分隐私保护算法,该算法通过改进的稀疏向量技术实现对挖掘过程添加拉普拉斯噪音,并对候选频繁序列的真实支持度以及阈值进行扰动.算法在理论角度被证明满足差分隐私,在真实数据集上的实验结果表明该算法具有较好的可用性.

关键词

频繁模式/序列数据/差分隐私/拉普拉斯噪音/稀疏向量技术

引用本文复制引用

基金项目

国家自然科学基金(61872197)

国家自然科学基金(61972209)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量2

段落导航