摘要
在当前的互联网中,很多内容都以文本形式存在,每天都在不断地产生新的文本。这些文本大多都是由普通用户写下的,其类别、情感等定义不明确,但是在日常生活中还是经常需要针对这些数据进行分析和摘要。对于这些数据,人们设计了许多摘要生成方法,整体上的思路分为两个方向,一个是从原文中抽取一部分,另一个是对原文进行分析生成独立的摘要。传统的方法大多是采用第一种方案,其实现简单,容易获得一个不错的效果。但是随着目前算法和GPU算力的发展,传统的抽取式摘要生成方法主要存在着如难以并行化、拟合效果差、速度慢等缺点,已经难以满足现代多复杂数据的分析,因此基于生成式的摘要生成方法受到重视和发展,这种方案可以生成任意形式的摘要。生成式的文本摘要方法可以产生最接近真实人类的摘要,促进信息处理的自动化。 针对现有的主流文本摘要方法,其利用机器学习或者神经网络的方法从原文档中抽取区间,此区间内部就是模型生成的摘要,或者利用序列到序列的方法从原始文档中生成表示编码,利用此编码逐个词生成摘要。这两种方法都存在一些问题,第一种方法的摘要依赖于原文,并且难以控制生成的区间个数,对于固定个数的区间可能存在区间过少信息不够,或者区间过多,出现冗余。第二种方法相对自由,但相较于翻译等可以自监督训练的任务,摘要生成任务更加依赖于标注数据,以目前主流模型的生成效果来看,还有较大提高空间。对此,本文采用了注意力机制和专家知识融合的方法,提出了以全词注意力机制为基础,包含知识数据融合、多任务学习等优化方案的文本摘要生成方法FMBWWA,并最终相对于现有开源模型在测试集上的效果更好。 对于这几种优化方案,其面向的着力点也是各不相同,全词注意力机制致力于提升模型对文本块的关注,通过对相邻元素进行注意力权重池化,使得对于其他词而言,这部分的词在注意力层面是一个整体,即可产生一对多的关系,这使得模型的注意力更加多样化,学习到不同的语义子空间。在多任务学习中,其致力于使得模型预测词时尽可能连贯的生成词,这样不但能够强迫模型学到更多的信息也会提高生成器的语言连贯性。而义原部分是将外部的知识库信息融合到神经网络的一次尝试,其将人类专家知识看作对原始模型的剪枝辅助信息,这样在本质上避免了单一专家信息的不完善问题。 综上所述,本文提出的基于全词注意力的文本摘要生成方法在不同层次,不同角度对文本摘要生成领域进行了探索,发现了现有自动文本摘要方法的不足,并进行了一些针对性改进,这使得最终的模型能够更加充分利用语料库信息和知识库信息,获得更好的文本摘要效果,也对后来者的研究提供新的启示。