一种基于字符对比的文本相似度计算方法

Text similarity calculation method based on character comparison

汪亚东¹

扫码查看

作者信息

1. 中北大学仪器与电子学院,山西太原 030051
折叠

摘要

为解决包含重复字符的文本相似度计算问题,提出了一种新的计算方法来获取两文本之间的相似度.首先根据单字符的对比情况统计重复字符数量;其次通过分析总的对比结果剔除重复字符的干扰;然后借助公式计算出正确的文本相似度,并拓展单字节字符和多字节字符混合时的相似度计算方法;最后编写算法代码来进行仿真分析,多组测试结果表明,用该方法计算得到的文本相似度与理论值相吻合.

关键词

自然语言处理/文本相似度/重复字符/计算算法

引用本文复制引用

出版年

2023

计算机时代

浙江省计算技术研究所　浙江省计算机学会

计算机时代

影响因子：0.411

ISSN：1006-8228

被引量1

参考文献量10

段落导航