基于序列到序列模型的无监督文本简化方法

Unsupervised text simplification with sequence-to-sequence model

李天宇 ¹李云 ¹钱镇宇¹

扫码查看

作者信息

1. 扬州大学信息工程学院,江苏扬州225137
折叠

摘要

训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得.为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料.首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型.通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果.

关键词

文本简化/无监督/序列到序列模型/去嗓自编码器

引用本文复制引用

基金项目

国家自然科学基金资助项目(61703362)

江苏省研究生科研与实践创新计划项目(SJCX19_0888)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量1

参考文献量2

段落导航