基于文本特征与关联分析的新闻主题句提取研究

杨帆¹

扫码查看

作者信息

1. 江西财经大学
折叠

摘要

随着互联网技术飞速发展，新闻信息数量快速增长和传播。海量新闻信息的产生和迅速传播丰富了人们的生活，但是也会带来信息过载问题，人们在获取信息过程中浪费了大量的时间。随着人工智能及自然语言处理技术的发展，新闻主题句提取研究和应用很好的解决了这一问题。新闻主题句提取是自动文本摘要等文本自动处理应用的基础工作，是自然语言处理领域中重要研究课题，其旨在提取出能够精简、准确的描述新闻文档主旨内容的句子。现有的主题句提取研究，大多都基于句子或词的特征分析提取主题句，仅考虑文本统计特征或者位置特征而忽视文本的语义信息及主题信息，也没有充分考虑到文本的上下文背景信息，影响了主题句提取的效果。或者基于图模型分析文档内部句子和词的关联关系，以迭代的方式对语句的重要度进行排序。普通的图模型仅表示了句子和词的二元关系而忽视了文档中句子和句子、词和词、词和句子之间存在多元关系。新闻的主题句不仅是准确表示新闻主题内容的语句，还是新闻文档中重要的语句。基于现有研究的局限以及新闻主题句的特点，本文提出基于文本特征与关联分析的新闻主题句提取研究方法，将主要从以下两个方面进行研究： 1)文本特征提取的研究。从新闻文本向量表示入手，提取新闻文本的统计特征，语义特征和主题信息特征全面准确的表示新闻文本内容的统计特征、新闻语义信息、上下文信息以及全局主题关系并利用相似度计算文本中句子和文本主题的关系。 2)文本内部关联分析的研究。本文构建超图模型表示新闻文本，将新闻文中的语句构建为超图的边，将词语构建为超图的点，分析新闻文本中句子和词，词和词、词和句子之间的高阶关系。并结合语句与主题关系及标题关系合理设计边的权重，以区分描述性句子和非描述性句子。根据边的权重对超图进行随机游走，并对语句重要度进行排序。最后利用最大边界相关算法控制主题句冗余度，使提取出来的主题句能够全面的表示新闻文档的主要信息。本文结合统计特征、语义特征和主题信息特征合理的表示文本中语句与主题的特征关系，本文的特征提取的方法在文本分类实验中取得了较好的效果。利用超图模型分析文本中多个对象关系，利用提取的文本特征合理的设计边的权重，通过超图的随机游走提取主题句，对语句重要度进行排序。该方法在新闻主题句提取上取得了较好的效果。

关键词

新闻文档/主题句提取/文本特征/关联分析/随机游走

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

陈辉

学位年度

2020

学位授予单位

江西财经大学

语种

中文

中图分类号

段落导航