基于Simhash改进的文本去重算法

Improved Text Deduplication Algorithm Based on Simhash

张亚男 ¹陈卫卫 ¹付印金 ¹徐堃¹

扫码查看

作者信息

1. 陆军工程大学指挥控制工程学院,江苏南京 210007
折叠

摘要

为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash).该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响.其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名.最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名.使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较.实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高.

关键词

Simhash/文本去重/词频-逆文本频率/Jaccard相似度/二进制压缩算法/位置特征

引用本文复制引用

基金项目

国家自然科学基金(61402518)

江苏省自然科学基金(BK20191327)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量1

参考文献量7

段落导航