基于未登录词识别的汉盲翻译系统研究

徐豪杰¹

扫码查看

作者信息

1. 浙江理工大学
折叠

摘要

随着互联网信息的发展，阿人应摆脱传统盲文书籍的束缚，享受丰富多彩的信息世界。然而，H前汉字盲文的信息化处理程度较低，肓人能够接触到的阅读材料较少。为帮助盲人尽早实现信息无障碍获墩，本文设计实现了一款带有未登录词自动识别功能的汉语盲文翻译系统，其中包含未登录词识别、中文分词连写、字音转换、拼音-ASCII码转换、盲文点序生成等模块，提供现行盲文和通用盲文两套翻译模式，额外支持解码标准BRF文件，可以帮助用户快捷方便地获取盲文文本，搭配使用盲文显示装置，大大扩展了盲人的信息获取渠道。本文主要包含以下部分工作: 对盲文分词连写影响最大的是未登录词问题，结合独立词内部凝聚程度和外部自由程度，将改进PMI算法和最小邻接熵相结合，设计实现了基于改进PMI和最小邻接熵结合策略的未登录词识别算法，该方法在未登录词识别性能上有一定的提升。将识别得到的未登录词形成个性化用户词典，用于改进现有的Jieba分词系统，改进后的Jieba分词系统性能优于隐马尔科夫模型算法的分词系统。这证明了未登录词识别算法的有效性，且通过加载个性化用户词典的方式能够改善汉语盲文分词连写效果。利用第三方模块初步获取汉字的拼音字符串，对拼音字符串进行声母、韵母、声调的切分。分析总结盲文拼读体系和汉字拼音的区别，对5种发音情形设计了相应的拼音修正处理算法。对修正处理后的声母、韵母、声调分别匹配盲文ASCu码，最后将ASCII码转换为自文点序。对设计的基于未登录词识别的汉盲翻译算法进行开发实现，整合统一各个功能，形成完整的基于未登录词识别的汉盲翻译系统。设计开发了相应的人机交互界面，方便用户使用。对汉盲翻译系统进行多维度测试，包括系统功能测试、汉盲翻译算法性能测试，以及翻译结果文件的应刚测试。将本系统的翻译结果和中国盲文数字平台的翻译结果进行比对，验证该系统具有较高的翻译准确率。统计系统翻译转换时间，计算得出该系统具有较快的翻译转换速度，整体具备良好的实用性。经盲文二号家校核，翻译结果文件在盲文显示设备上同样具有较好的实际表现。

关键词

汉盲翻译/人机交互/软件开发/未登录词识别

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

杨文珍

学位年度

2019

学位授予单位

浙江理工大学

语种

中文

中图分类号

段落导航