首页|面向时序的相似重复数据清洗算法优化

面向时序的相似重复数据清洗算法优化

扫码查看
针对海量时序数据集提出了一种相似重复数据检测算法.该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略.新策略大大减少了相似重复数据清洗过程中的比对次数.该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果.
Time-series-oriented duplicate data cleaning algorithm optimization

沈沛、毛海涛、胡文林、芮波

展开 >

中国人民解放军92728部队,上海 200436

杭州幂链科技有限公司

时序数据 SNM改进算法 相似重复数据 动态滑动窗口 数据清洗

2022

计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
年,卷(期):2022.(9)
  • 9