基于高级语义的通用型文本生成迁移学习

李昊¹

扫码查看

作者信息

1. 浙江大学
折叠

摘要

自然语言处理是人机交互领域的重要核心，是近些年人工智能领域快速发展的方向之一，吸引着研究人员的关注。在深度神经网络被提出后，尤其以序列到序列模型(Seq2Seq)为代表的模型被广泛应用在文本生成任务中，该方向相关的各项任务，如机器翻译、文本摘要等，性能都得到了较大的提高。然而，受限于神经网络数据驱动的特点，相关的自然语言模型只能在构建在规模巨大的语料库上。一旦将已经预训练完毕的模型应用在其他语料，模型的效果会发生明显的削弱。因此，本文对自然语言模型中广泛使用的序列到序列(Seq2Seq)结构进行改进，增加了能够利用迁移学习的功能结构，使其能够利用先验知识或不同任务的预训练模型。相比于原始的Seq2Seq结构，该模型能够利用先验知识和已构建好的预训练模型，即使在小规模数据上也能够达到较好的效果。本文在若干著名的公开数据集和爬虫抓取的网络社区数据集上进行了实验，实验结果表明，本文提出的迁移学习Seq2Seq模型能够很好地利用先验知识以及自然语言任务中学习到的通用知识，在多项指标上均超过了现有的先进算法，实现了迁移学习在不同数据集、不同任务上的普适性。本文所衍生的部分研究被学术界认可并发表了相关的文章至顶会NIPS与IJCAI，在国际竞赛与相关企业实践中都取得了切实的成绩，证明了该研究的学术价值和工业价值。

关键词

自然语言/文本生成/迁移学习/序列到序列模型

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

何晓飞

学位年度

2018

学位授予单位

浙江大学

语种

中文

中图分类号

段落导航