摘要
大数据技术的快速发展推动其在不同行业领域的深度融合和创新应用,越来越多的企业和组织借助大数据平台提供的数据存储和处理能力释放数据的潜在价值。随着企业和组织收集和使用的数据日益增多,作为数据载体的大数据平台承担着极高的数据安全风险。目前,大数据平台在数据收集阶段的隐私保护和数据处理阶段的数据合规还存在以下挑战:(1)在对实时收集的数据提供隐私保护时,传统静态数据匿名算法无法处理流数据动态、持续不断等特点,而且缺失值的存在对算法引入额外信息损失。(2)针对大数据平台开展基于使用目的数据合规分析能有效减少数据滥用的情况,然而目前还缺少描述数据使用范围和目的的结构化合规规则来支持自动化的合规分析;(3)大数据平台的数据审计功能只能提供审计日志,缺乏原生的数据合规分析能力。 本文从大数据平台上流数据隐私保护与数据可用性的平衡、合规规则的自动生成方法,以及大数据平台中数据处理任务的合规验证三个方面开展大数据平台的隐私保护及合规关键技术研究。主要研究工作和创新有如下三个部分: (1)基于聚类的不完整流数据匿名算法 流数据持续到达、潜在无限的特点使得流数据匿名化无法像静态数据匿名方法一样采用多次扫描全局数据来减少信息损失,流数据的时效性也对匿名算法的数据输出延迟提出了更高的要求。另外,传统匿名算法鲜有考虑真实数据环境中的缺失值,现有对缺失值的处理方式会丢失大量信息,影响了匿名后数据的可用性。针对这些问题,本文基于聚类思想提出了一种不完整流数据匿名算法,其中利用基于计数的滑动窗口和时间约束来实现连续匿名化和缓存数据的强制输出,并且采用了一种簇复用的机制让新到数据可以采用信息损失更小的泛化值输出。为了实现缺失数据的聚类,本文提出了一种基于属性集和属性值两个维度的缺失数据距离计算方法。针对缺失值会引入额外信息损失的问题,提出了一种基于Maybematch的缺失数据泛化方法。在多个公开数据集上开展的实验表明,本文提出的方法具有更低的信息损失,能更好地保留数据的可用性。不完整流数据匿名算法在流数据的隐私保护场景下具有实际应用的价值。 (2)面向隐私政策的数据规则自动抽取方法 隐私政策中描述数据使用目的的合规规则不是机器可读的结构化格式,无法直接用于自动化的数据合规性分析。隐私政策中的数据使用目的表达形式多样,基于句法特征的方法无法高效识别句子中所有目的。针对上述问题,本文研究了句法分析和语义分析结合的目的感知规则自动化抽取方法。首先,提出了一种目的感知规则来形式化描述隐私政策中数据使用声明。其次,基于句法和语义特征的分析提出显式目的表达和隐式目的表达的概念,采用基于模版匹配和语义角色标注模型结合的方法实现了目的的有效识别。针对语义角色标注模型迁移到隐私政策领域中标注准确性不高的问题,本文基于领域自适应方法,利用少量人工标注样本重训练模型,显著提升了模型的识别性能。实验结果表明,改进后的语义角色标注模型对隐式目的识别召回率提高了13%,基于该模型抽取目的感知规则的F1值达到91%。本文提出的方法首次有效地从隐私政策文档中自动提取出基于目的的数据规则,为隐私合规分析提供了规则来源。 (3)基于图匹配的数据合规验证方法 大数据平台的数据安全策略主要约束对受限数据资源的访问,并不支持对数据关联使用、数据使用目的的限制。另外大数据平台缺乏原生的合规分析能力。针对上述问题,本文提出了一种基于图匹配的数据合规分析模型。通过对数据处理规则和数据溯源信息的建模,提出了基于有向无环图的数据规则图描述数据处理的约束以及数据处理图表示数据处理过程,将数据处理的合规性分析转化为图匹配问题。其中,基于一种具化层次模型来解决数据规则图和数据处理图中不同粒度的元素之间的匹配分析问题。本文在大数据治理软件Atlas上实现了数据合规验证功能,基于TPC-DS基准查询开展的合规分析实验,证明了本文提出的模型能有效地针对三种合规需求分析数据处理任务的合规性。本文的研究工作为大数据平台的数据合规检测提供了基础。 综上所述,本文开展的大数据平台上的隐私保护及合规关键技术研究成果,能在为流数据提供有效的隐私保护的同时保持较高的数据效用,以及实现大数据平台的数据合规分析,对提升数据安全保护能力、完善数据合规审查技术手段具有重要意义。