首页|面向标记语言的机器翻译方法研究

面向标记语言的机器翻译方法研究

扫码查看
标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题.针对这些难题,该文提出基于组合泛化的标记语言建模方法.同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F1值等指标来衡量标记语言格式还原效果.实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近 100%.
Research on Machine Translation for Markup Language
Compared with plain text translation tasks,the markup language translation is obstructed by low transla-tion quality caused by complex and diverse markup formats.This paper proposes a combined generalization-based markup language translation method.As for the format restoration of markup language,this paper proposes to measure its quality by tag position precision,accuracy,recall rate and F1 value.Compared with truncation-based,word alignment-based and existing generalization methods,the proposed method has significant improvement in BLEU,and the format restoration rate is close to 100%.

markup languagemachine translationgeneralization-based modeling approach

杜权、曾信、李北、刘辉、李垠桥、肖桐、朱靖波

展开 >

东北大学自然语言处理实验室,辽宁沈阳 110819

标记语言 机器翻译 基于泛化的建模方法

国家自然科学基金国家自然科学基金

6187603561732005

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(8)