计算机时代2023,Issue(6) :87-91.DOI:10.16644/j.cnki.cn33-1094/tp.2023.06.018

一种基于字符对比的文本相似度计算方法

Text similarity calculation method based on character comparison

汪亚东
计算机时代2023,Issue(6) :87-91.DOI:10.16644/j.cnki.cn33-1094/tp.2023.06.018

一种基于字符对比的文本相似度计算方法

Text similarity calculation method based on character comparison

汪亚东1
扫码查看

作者信息

  • 1. 中北大学仪器与电子学院,山西 太原 030051
  • 折叠

摘要

为解决包含重复字符的文本相似度计算问题,提出了一种新的计算方法来获取两文本之间的相似度.首先根据单字符的对比情况统计重复字符数量;其次通过分析总的对比结果剔除重复字符的干扰;然后借助公式计算出正确的文本相似度,并拓展单字节字符和多字节字符混合时的相似度计算方法;最后编写算法代码来进行仿真分析,多组测试结果表明,用该方法计算得到的文本相似度与理论值相吻合.

关键词

自然语言处理/文本相似度/重复字符/计算算法

引用本文复制引用

出版年

2023
计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
被引量1
参考文献量10
段落导航相关论文