基于双语对齐的汉文-新蒙古文命名实体翻译技术研究

杨萍¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

对于统计机器翻译而言，命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法;这种方法需要人工标注新蒙文语料、撰写规则;耗时长且难以覆盖所有的命名实体现象。针对上述问题，本文提出了一种自动地从汉文-新蒙文平行句对中抽取命名实体对的方法。本文实现了基于CRF的汉文命名实体识别。对其中的关键性问题:识别粒度大小的确定、特征的选取进行了充分的实验。得出了基于字的识别效果更优;找出了对命名实体识别非常有意义的各类特征:基于上下文的字特征、分词以及词性特征、各类实体前后缀字特征等;最后得到了一个识别性能较优的模型。对汉文中实体类命名实体识别的平均F值为91.67。本文提出了汉文-新蒙文命名实体翻译框架，采用了非对称的汉文-新蒙文命名实体对齐策略，对汉文端进行命名实体识别后，从汉文-新蒙文词对齐结果中用滑动窗的方法抽取出候选的汉文-新蒙文命名实体对。然后利用从语料中得到的词对齐一致性特征、命名实体对翻译概率特征以及语言模型特征对候选翻译对进行置信度估计，选取置信度最高的候选翻译对确定为我们最终的抽取结果。抽取到的汉文-新蒙古文命名实体对的正确率为81.54％。

关键词

命名实体识别/统计机器翻译/双语对齐/滑动窗

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

侯宏旭

学位年度

2015

学位授予单位

内蒙古大学

语种

中文

中图分类号

段落导航