一种改进的TextRank关键词提取算法

An Improved TextRank Keyword Extraction Algorithm

李志强 ¹潘苏含 ¹戴娟 ¹胡佳佳¹

扫码查看

作者信息

1. 扬州大学信息工程学院,江苏扬州 225000
折叠

摘要

关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题.现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高.因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重.利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能.实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高.

关键词

提取/TF-IDF算法/TextRank算法/平均信息熵/自然语言处理

引用本文复制引用

基金项目

国家自然科学基金(61070240)

出版年

2020

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量7

参考文献量12

段落导航