计算机应用研究2021,Vol.38Issue(1) :93-96,100.DOI:10.19734/j.issn.1001-3695.2019.11.0611

基于序列到序列模型的无监督文本简化方法

Unsupervised text simplification with sequence-to-sequence model

李天宇 李云 钱镇宇
计算机应用研究2021,Vol.38Issue(1) :93-96,100.DOI:10.19734/j.issn.1001-3695.2019.11.0611

基于序列到序列模型的无监督文本简化方法

Unsupervised text simplification with sequence-to-sequence model

李天宇 1李云 1钱镇宇1
扫码查看

作者信息

  • 1. 扬州大学信息工程学院,江苏扬州225137
  • 折叠

摘要

训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得.为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料.首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型.通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果.

关键词

文本简化/无监督/序列到序列模型/去嗓自编码器

引用本文复制引用

基金项目

国家自然科学基金资助项目(61703362)

江苏省研究生科研与实践创新计划项目(SJCX19_0888)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量1
参考文献量2
段落导航相关论文