中文信息学报2024,Vol.38Issue(8) :68-75.

面向标记语言的机器翻译方法研究

Research on Machine Translation for Markup Language

杜权 曾信 李北 刘辉 李垠桥 肖桐 朱靖波
中文信息学报2024,Vol.38Issue(8) :68-75.

面向标记语言的机器翻译方法研究

Research on Machine Translation for Markup Language

杜权 1曾信 1李北 1刘辉 1李垠桥 1肖桐 1朱靖波1
扫码查看

作者信息

  • 1. 东北大学自然语言处理实验室,辽宁沈阳 110819
  • 折叠

摘要

标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题.针对这些难题,该文提出基于组合泛化的标记语言建模方法.同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F1值等指标来衡量标记语言格式还原效果.实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近 100%.

Abstract

Compared with plain text translation tasks,the markup language translation is obstructed by low transla-tion quality caused by complex and diverse markup formats.This paper proposes a combined generalization-based markup language translation method.As for the format restoration of markup language,this paper proposes to measure its quality by tag position precision,accuracy,recall rate and F1 value.Compared with truncation-based,word alignment-based and existing generalization methods,the proposed method has significant improvement in BLEU,and the format restoration rate is close to 100%.

关键词

标记语言/机器翻译/基于泛化的建模方法

Key words

markup language/machine translation/generalization-based modeling approach

引用本文复制引用

基金项目

国家自然科学基金(61876035)

国家自然科学基金(61732005)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量24
段落导航相关论文