摘要
互联网在时代发展中迅速崛起,网络上信息量迅速增多,人们想要在大量信息中寻找自己需要的信息也变得愈加困难。自动摘要技术在解决如何快速获取到有用的信息方面有很大的优势,但是自动摘要中的生成式自动摘要方法依然存在一些问题。例如,在生成过程中由于切词不准确、特征信息提取不准确而导致生成的摘要不流畅、准确度不够、信息不全面等问题。针对这些问题,本文研究了一种新的摘要生成方法,主要工作如下: 1.针对切词不准确导致最终结果不准确的问题,本文通过使用字符级词嵌入方法,最终生成BERT字向量作为后续模型的输入。通过在BERT模型的输入部分使用字符级词嵌入,基于汉字本身有自己意义的特点,利用单个汉字作为输入,避免了切词的步骤,以生成质量高且准确的字向量。实验结果表明,在输出结果准确率较高的情况下,相较于一般输入的BERT模型,减少了训练时间,提高了训练效率。 2.针对特征信息提取不准确导致生成结果不准确的问题,本文通过上述BERT字向量同时结合改进的LeakGAN模型生成摘要。该方法使用了层次强化学习策略的LeakGAN模型,通过在该模型的判别器中加入注意力机制,对输入数据进行主旨信息提取,捕获全局与局部的关联,并且结合了BERT字向量,从而获得高质量的特征信息生成更加准确的摘要。通过使用大规模中文短文本摘要数据集LCSTS作为仿真实验的数据集,使用ROUGE自动评分和人工测评方法,相较于抽取式文本生成模型和生成式基准模型Seq2Seq,本文研究的摘要生成方法在生成摘要的准确度和流畅性方面有一定程度的提升。