基于深度学习的自动文本摘要生成技术研究

郭凯杰¹

扫码查看

作者信息

1. 天津工业大学
折叠

摘要

自动文本摘要技术是人们从互联网的海量数据上快速获取文本信息的有效途径之一。本文通过对自动摘要任务的研究背景调研，发现该任务在实际生产和生活中都有许多的应用场景。就目前国内外的自动文本摘要任务的现状来看，主要分为抽取式文本摘要和生成式文本摘要。相较于前者，生成式文本摘要可以生成更符合人们阅读的摘要文本，无论从摘要的语法上还是从摘要的质量上都有一定的优势。因此，本文主要研究了基于序列到序列的生成式文本摘要模型。本文主要研究内容包括：首先，本文通过深入调研了自动文本摘要的研究背景，了解了任务对于科研和日常生活的意义。此外，本文对该任务国内外研究现状进行了详尽的分析，发现了目前遇到的一些瓶颈和挑战。介绍了自然语言处理任务中基础的的词向量表示方法和语言模型。分析了循环神经网络和卷积神经网络的基本原理和优势。此外，本文回顾了近年来自然语言处理领域中的预训练处理模型。其次，本文介绍了基于复制机制的文本摘要模型。在经典的序列到序列框架的基础上，加入了自注意力机制和复制机制，有效缓解了自动文本摘要任务中常见的OOV和未登录词等问题。未解决神经网络对长文本序列记忆的难题，在第四章介绍了基于BERT的文本摘要模型，在编码侧获取源文本信息中丰富语义。通过迁移学习的方式得到源文本的词嵌入表示，并针对自动文本摘要任务进行微调。同时也通过门控单元对编码信息进行过滤，生成可读性更强、质量更高的文本摘要。最后，本文在大型中文短文本数据集LCSTS和英文数据集CNN/DailyMail上进行了测试。详细验证了文中所提模型的有效性，并通过具体的摘要实例分析了模型生成摘要的过程。实验结果表明，本文提出的模型相较于基线模型有了一定的提升，并生成了质量较高的文本摘要，有效改善了自动文本摘要任务中常见的一些问题。

关键词

文本摘要生成/深度学习/自然语言处理/BERT模型/神经网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

任淑霞/马德锴

学位年度

2020

学位授予单位

天津工业大学

语种

中文

中图分类号

段落导航