计算机工程与设计2024,Vol.45Issue(9) :2844-2851.DOI:10.16208/j.issn1000-7024.2024.09.038

融合位置编码的中文拼写纠错方法

Chinese spelling error correction with fusion position encoding method

赵建辉 林川 任丽娜 黄瑞章
计算机工程与设计2024,Vol.45Issue(9) :2844-2851.DOI:10.16208/j.issn1000-7024.2024.09.038

融合位置编码的中文拼写纠错方法

Chinese spelling error correction with fusion position encoding method

赵建辉 1林川 1任丽娜 2黄瑞章1
扫码查看

作者信息

  • 1. 贵州大学计算机科学与技术学院文本计算与认知智能教育部工程研究中心,贵州贵阳 550025;贵州大学计算机科学与技术学院公共大数据国家重点实验室,贵州贵阳 550025
  • 2. 贵州大学计算机科学与技术学院文本计算与认知智能教育部工程研究中心,贵州贵阳 550025;贵州轻工职业技术学院 信息工程系,贵州 贵阳 550025;贵州大学计算机科学与技术学院公共大数据国家重点实验室,贵州贵阳 550025
  • 折叠

摘要

在中文拼写纠错任务中,字符在文本中的距离信息和顺序信息是重要的特征,因此位置编码至关重要.传统的位置编码无法区分字符的前后联系,此外二阶段方式的纠错方案存在错误传播问题.针对上述问题,提出一种多任务学习下融合位置编码的中文拼写纠错方法,使用融合位置编码更好地为模型提供位置信息;使用多任务学习机制缓解错误传播问题,提升模型泛化能力.针对公开数据集进行实验,实验结果在F1值方面有稳定提升,验证了所提方法的有效性.

Abstract

In Chinese spelling correction tasks,the distance information and order information of characters in the text is impor-tant feature,so the position encoding is crucial.The traditional position encoding cannot distinguish the forward and backward connection of characters,and the error propagation problem exists in the error correction scheme of the two-stage approach.To address the above problems,a Chinese spelling error correction method with fused positional coding under multi-task learning was proposed,in which fusion position encoding was used to provide better positional information for the model,and a multi-task learning mechanism was used to alleviate the error propagation problem and improve the model generalization ability.Experi-ments were conducted for the public dataset.Experimental results show a stable improvement in the F1 value,which verifies the effectiveness of the proposed method.

关键词

中文拼写纠错/距离信息/顺序信息/位置编码/错误传播/融合位置编码/多任务学习

Key words

Chinese spelling error correction/distance information/order information/position encoding/error propagation/fu-sion position encoding/multi-task learning

引用本文复制引用

基金项目

国家自然科学基金项目(62066007)

贵州省科技支撑计划基金项目(黔科合支撑[2022]一般277)

出版年

2024
计算机工程与设计
中国航天科工集团二院706所

计算机工程与设计

CSTPCD北大核心
影响因子:0.617
ISSN:1000-7024
参考文献量3
段落导航相关论文