基于反向翻译的英语语法纠错应用研究

Application Research of English Grammar Error Correction Based on Back-Translation

孙晓东 ¹王丕坤 ¹杨东强¹

扫码查看

作者信息

1. 山东建筑大学计算机科学与技术学院,山东济南 250101
折叠

摘要

基于数据驱动和机器翻译模型的英语语法纠错是神经语言模型的主要应用之一.人工标注语料库的数量和质量是影响此类方法性能的重要因素.通过分析现有学习者语料的错误类型分布,对常见的错误类型如动词、名词、部分介词、拼写和标点建立混淆集.使用混淆集结合人工规则的方法对单语语料数据进行加噪处理,与学习者语料分别用于基于机器翻译的自动错误生成模型的预训练和微调;使用错误生成模型生成的合成数据与学习者语料共同训练语法纠错模型,模型性能在CoNLL-2014和JFLEG数据集上得到显著性提高.此外,通过使用语法纠正模型纠正学习者语料库源句,将产生的中间数据反馈输入到错误生成模型,并进行交替训练.纠错系统在标准数据集上的性能得到进一步提升.

关键词

数据增广/反向翻译/规则/语法纠错/交替训练

引用本文复制引用

基金项目

教育部人文社会科学研究项目(15YJA740054)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量2

参考文献量2

段落导航