摘要
针对非结构化大数据发布中的隐私保护问题,提出了一种基于改进的可伸缩l-多样性(improved scala-ble l-diversity,ImSLD)大数据发布隐私保护方法.该算法采用基于两阶段条件随机场的命名实体识别(named entity recognition,NER)方法将非结构化数据表示为结构化形式,设计一种改进的可伸缩l-多样性算法来对表现良好的非结构化数据进行匿名化,实现保护非结构化大数据发布的隐私,通过Apache Pig实现ImSLD算法来使其具有可伸缩性.实验表明与MRA和SKA算法相比,改进的ImSLD算法在不同数据集上提供相同级别的隐私时信息损失均优于对比的另外两种算法.
基金项目
重庆市教育科学"十三五"规划2020年度重点无经费课题(2020-GX-169)
重庆市职业教育学会2020—2021 年度立项课题(2020ZJXH282086)