计算机技术与发展2020,Vol.30Issue(3) :77-81.

一种改进的TextRank关键词提取算法

An Improved TextRank Keyword Extraction Algorithm

李志强 潘苏含 戴娟 胡佳佳
计算机技术与发展2020,Vol.30Issue(3) :77-81.

一种改进的TextRank关键词提取算法

An Improved TextRank Keyword Extraction Algorithm

李志强 1潘苏含 1戴娟 1胡佳佳1
扫码查看

作者信息

  • 1. 扬州大学 信息工程学院,江苏 扬州 225000
  • 折叠

摘要

关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题.现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高.因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重.利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能.实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高.

关键词

提取/TF-IDF算法/TextRank算法/平均信息熵/自然语言处理

引用本文复制引用

基金项目

国家自然科学基金(61070240)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量7
参考文献量12
段落导航相关论文