现代计算机2022,Vol.28Issue(2) :73-77.DOI:10.3969/j.issn.1007-1423.2022.02.011

基于命名实体n-gram图的文本相似性度量

Text Similarity Measurement Based on n-gram Graph of Named Entity

于营 周显春 贾树文
现代计算机2022,Vol.28Issue(2) :73-77.DOI:10.3969/j.issn.1007-1423.2022.02.011

基于命名实体n-gram图的文本相似性度量

Text Similarity Measurement Based on n-gram Graph of Named Entity

于营 1周显春 1贾树文2
扫码查看

作者信息

  • 1. 三亚学院信息与智能工程学院,三亚 572000;三亚学院容淳铭院士工作站,三亚 572000
  • 2. 三亚学院盛宝金融科技商学院,三亚 572000
  • 折叠

摘要

文本比较在自然语言处理中应用广泛.本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JIn?sect工具箱来构造和管理n-gram,使用文本聚类算法k-Means进行文本相似性度量,使用各种聚类有效性指标对生成的聚类进行评估.

关键词

自然语言处理/n-gram图/文本聚类/文本相似性度量

引用本文复制引用

基金项目

海南省自然科学基金青年项目(621QN270)

出版年

2022
现代计算机
中大控股

现代计算机

影响因子:0.292
ISSN:1007-1423
参考文献量1
段落导航相关论文