基于深度学习的文本自动摘要技术研究

谭浩¹

扫码查看

作者信息

1. 天津工业大学
折叠

摘要

随着新一代5G通信技术的快速普及，互联网中的数字信息等数据呈现爆炸式增长。文本数据作为一种原始常规的信息存在形式，普遍具有篇幅冗长、阅读时间长等诸多限制因素。如何从海量的日常生活信息中快速有效地提取出用户需要的有用信息，节省用户阅读文字信息的时间，提升阅读者在阅览文本时的效率，已成为当下亟待解决的问题。文本自动摘要算法研究作为自然语言处理领域的关键技术，旨在确保保留原始文本中关键信息的情况下，有效概括源文本信息，生成对应的短文本摘要。当前，传统的抽取式文本摘要算法获得的摘要文本尚存在效果不佳、语义理解不够充分等问题。针对上述问题，本文开展了以下研究：首先，本文提出构建基于ALBERT-UniLM模型的文本摘要生成模型。该模型将预训练语言模型ALBERT与UniLM模型相结合，基于ALBERT语言模型作为编码器获得文本序列词向量参数，基于UniLM模型作为解码器，进而实现摘要文本的生成。其原理为首先通过ALlBERT模型编码获取输入文本的向量参数，得到文本的输入序列表示;然后将得到的文本输入序列输入到UniLM模型的Seq2Seq LM中，结合迁移学习的思想进行任务微调，从而得到文本摘要。其次，本文提出构建基于融合主题词注意力机制的UniLM-PGN文本摘要生成模型。充分融合源文本序列中的主题词关键信息，使得摘要模型将源文本序列中的主题词作为先验知识，指导文本摘要的生成；此外，本文将文本主题词信息通过注意力机制引入到指针生成网络模型中，使得UniLM-PGN模型能够充分利用文本主题词所反映的序列语义信息来生成摘要文本，从而使得UniLM-PGN模型显著提升文本主题词信息的使用能力，生成概括效果更全面贴切的摘要文本，提升摘要文本的质量。最后，本文将上述模型在 NLPCC-2018 中文公开数据集上进行摘要效果评测，实验验证了本文所提模型效果的可靠性。

关键词

文本自动摘要/指针生成网络/注意力机制/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

孙宝山

学位年度

2021

学位授予单位

天津工业大学

语种

中文

中图分类号

段落导航