计算机研究与发展2024,Vol.61Issue(10) :2417-2432.DOI:10.7544/issn1000-1239.202440496

基于数据集蜜点的抗损毁数据标识技术

A Corruption-resistant Data Identification Technology Based on Dataset Honeypoint

李浩波 李默涵 陈鹏 孙彦斌 田志宏
计算机研究与发展2024,Vol.61Issue(10) :2417-2432.DOI:10.7544/issn1000-1239.202440496

基于数据集蜜点的抗损毁数据标识技术

A Corruption-resistant Data Identification Technology Based on Dataset Honeypoint

李浩波 1李默涵 1陈鹏 1孙彦斌 2田志宏2
扫码查看

作者信息

  • 1. 广州大学网络空间安全学院 广州 510006
  • 2. 广州大学网络空间安全学院 广州 510006;广东省工业控制系统攻防对抗重点实验室 广州 510006
  • 折叠

摘要

数据标识是实现数据精准监管的前提条件,有效地保证了数据要素在跨域流转过程中的安全.当前已有针对单一数据的标识生成方法,但是随着数据规模的不断扩大,数据层面的数据标识无法直接应用到数据集层面,并且会带来标识"易损毁"和标识"难嵌入"的问题.为有效解决上述问题,通过沿用方滨兴院士提出的"护卫"模式中网络蜜点的设计理念,借助欺骗防御的思想提出数据跨域流转场景下基于数据集蜜点的抗损毁数据标识技术,设计并形成一套完整的数据集蜜点生成和嵌入方法.首先,针对数据跨域流转场景设计了数据集蜜点,并通过增强数据集蜜点的隐蔽性和增加数据集蜜点冗余的方式解决标识"易损毁"的问题.其次,通过保证数据集蜜点形态与真实数据密不可分,解决标识"难嵌入"的问题.最后,通过在图像和加密文本 2个数据模态下进行实验,验证了数据集蜜点具备高抗损毁、高鲁棒和低性能开销的特性.

Abstract

Data identification is a prerequisite for achieving precise data governance,effectively ensuring the security of data elements during cross-domain transfer.Currently,there are methods for generating identifiers for individual data,but as the scale of data continues to expand,identifiers at the data level cannot be directly applied to the dataset level.This also introduces issues of identifiers being"easily damaged"and"difficult to embed".To effectively address these issues,we adopt the design concept of network honeypoint from the"guardian"model proposed by academician Fang Binxing.Utilizing the idea of deception defense,we propose an anti-damage data identification technology based on dataset honeypoint for cross-domain data transfer scenarios,and design a complete method for generating and embedding dataset honeypoints.First,for cross-domain data transfer scenarios,dataset honeypoints are designed.By enhancing the concealment of dataset honeypoints and increasing their redundancy,the issue of identifiers being"easily damaged"is addressed.Second,by ensuring that the form of dataset honeypoint is indistinguishable from real data,the issue of identifiers being"difficult to embed"is resolved.Finally,experiments conducted on both image and encrypted text data modalities demonstrate that dataset honeypoints possess high anti-damage capability,high robustness,and low performance overhead.

关键词

数据跨域流转/数据标识/数据集蜜点/欺骗防御/抗损毁/嵌入

Key words

data cross-domain transfer/data identification/dataset honeypoint/deception defense/damage resistance/embedding

引用本文复制引用

基金项目

国家重点研发计划项目(2021YFB3101704)

国家自然科学基金项目(62372126)

国家自然科学基金项目(62272119)

国家自然科学基金项目(62072130)

国家自然科学基金项目(U20B2046)

广东省基础与应用基础研究基金项目(2023A1515030142)

广州市基础与应用基础研究项目(2024A04J9969)

广州大学校内科研项目(YJ2023047)

广东省高校珠江学者资助计划项目(2019)()

广东省高等教育创新群体项目(2020KCXTD007)

中国工程院战略研究与咨询项目(2023-JB-13)

出版年

2024
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量13
段落导航相关论文