首页|基于Simhash改进的文本去重算法

基于Simhash改进的文本去重算法

扫码查看
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash).该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响.其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名.最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名.使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较.实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高.
Improved Text Deduplication Algorithm Based on Simhash

张亚男、陈卫卫、付印金、徐堃

展开 >

陆军工程大学 指挥控制工程学院,江苏 南京 210007

Simhash 文本去重 词频-逆文本频率 Jaccard相似度 二进制压缩算法 位置特征

国家自然科学基金江苏省自然科学基金

61402518BK20191327

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(8)
  • 1
  • 7