首页|改进TextRank的文本关键词提取算法

改进TextRank的文本关键词提取算法

扫码查看
关键词提取作为自然语言处理(NLP)的重要步骤,其作用是挖掘文本主题,通过几个词高度概括文本内容,在信息检索、文本挖掘中应用广泛.选出的关键词必须包含以下3个特性:易于理解、与文本高度关联、能很好地覆盖文本内容.对TextRank算法进行改进,将一段文本分成若干部分,对其中的每个部分构建关键词图,并在每一部分中提取若干关键词,最后根据词频、长度、位置和词性等综合因素进行打分,选出最终的关键词.通过实验得出,该算法相比传统的TextRank算法准确率提高了2.3%.改进TextRank算法改善了传统Tex⁃tRank算法将文本按句子划分,且划分过于细致,造成句子之间联系被割裂的现象,提高了算法效率.
Text Keyword Extraction Algorithm Based on Improved TextRank

王俊玲

展开 >

山东科技大学计算机科学与工程学院,山东青岛266500

关键词提取 关键词图 文本挖掘 TextRank

2017YFC08044062016ZDJS02A05

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(4)
  • 2
  • 2