计算机科学2021,Vol.48Issue(z2) :136-141.DOI:10.11896/jsjkx.210100025

基于Transformer的汉字到盲文端到端自动转换

End-to-End Chinese-Braille Automatic Conversion Based on Transformer

蒋琪 苏伟 谢莹 周弘安平 张久文 蔡川
计算机科学2021,Vol.48Issue(z2) :136-141.DOI:10.11896/jsjkx.210100025

基于Transformer的汉字到盲文端到端自动转换

End-to-End Chinese-Braille Automatic Conversion Based on Transformer

蒋琪 1苏伟 1谢莹 2周弘安平 2张久文 1蔡川1
扫码查看

作者信息

  • 1. 兰州大学信息科学与工程学院 兰州 730000
  • 2. 中国盲文出版社 北京 100142
  • 折叠

摘要

汉字到盲文自动转换是改善我国1700万视障人群生活学习和贯彻落实国家信息无障碍建设的重要问题.现有汉盲转换方法均采用多步转换方法,先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本.该文提出一种基于编码器-解码器模型Transformer的端到端汉盲转换方法,利用汉字-盲文对照语料库训练Transformer模型.基于《人民日报》六个月约1200万字中文语料,该文构建了国家通用盲文、现行盲文、双拼盲文三种对照汉盲语料库.实验结果表明,该文提出的方法可将汉字一步转换为盲文,并在国家通用盲文、现行盲文、双拼盲文分别有80.25%,79.08%和79.29%的BLEU值.相比现有汉盲转换方法,该方法所需语料库的建设难度较小,且工程复杂度较低.

关键词

汉盲转换/端到端深度学习/编码器-解码器模型/Transformer

引用本文复制引用

基金项目

国家自然科学基金(61772006)

中国残联-中国盲人协会专项项目(140218)

广西科技项目(桂科AA17204096)

广西科技项目(桂科AB17129012)

广西"八桂学者"专项资助()

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
参考文献量3
段落导航相关论文