蒙古文类文字的标准符合性检测系统优化升级的设计与实现

贾雅清¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

蒙古文类文字包括蒙古文、满文、托忒文以及锡伯文，均属于黏着语系。文字的标准符合性检测即为字库检测，其目标是对字库厂商设计的字体进行测试。蒙古文类文字的标准符合性检测包括编码符合性检测和转换规则检测，转换规则检测为蒙古文类文字特有。蒙古文类文字的转换规则众多且复杂，导致蒙古文类文字的字库检测相较于中文、英文等语言更为困难。目前蒙古文类文字的标准符合性检测有两类方法。第一类是人工校验，该方法准确率较高，但需要专业人员检测。第二类为图像方法，包括传统图像方法和深度学习方法等。由于文字图片所含信息较少，导致图像方法对转换规则检测准确率较低。本文基于文字显形的底层原理，利用文本引擎输出的字形序列进行匹配，从而实现字库的标准符合性检测。本文为上述四种语言大多数字库实现了字库检测功能，研究内容如下。首先，本文提出了基于文本引擎的检测算法，该算法利用文本引擎技术将字库检测任务转化为序列匹配任务，提升了字库检测准确率。其次，待测字库构建映射表是本算法的重要组成部分。本文提出基于深度学习的映射表构建方法，将映射表构建转化为字形图像分类任务，贡献基于以下四点。（1）本文构造蒙古文类文字的标准符合性检测数据集，该数据集可细分为编码符合性检测数据集与转换规则检测数据集，分别对应构建编码符合性检测映射表与转换规则检测映射表任务。该数据集与已有数据集相比覆盖字库更全面、图像数据更加细粒度。（2）本文研究不同增广方法对字形图片数据增强效果。蒙古文类文字数据集属于小样本数据集。本文运用多种数据增强方式缓解图像小样本数据集数据稀缺性问题，并比较多种增广方法。实验表明旋转/拉伸策略能有效提升字形图片分类准确率。（3）本文引入图像预训练模型提升字形图片分类任务效果，并根据蒙古文字形图像特点提出基于反色掩码策略的 Masked Autoencoders (MAE) 图像预训练方法。实验证明图像预训练模型对该任务有所提升。（4）受多语言翻译任务方法启发，本文提出子模型掩码图片分类模型 (sub-model masked image classification SMMIC)。SMMIC模型面向特定字库的字形分类任务，实验表明SMMIC可提升特定字库的字形分类准确率。最后，本文对原有字库检测系统进行了升级与优化，升级与优化的核心是提出了基于文本引擎的字库检测算法。除此之外，构建映射表是本算法的重要内容，本文利用深度学习方法构建映射表。最后，本文也对原有系统采用 B/S 架构进行重构，并额外添加字库管理、权限管理、资源管理模块等，使系统更加完备，并发性更强，更具有实用功能。

关键词

蒙古文类文字/检测系统/数据增强/预训练模型/字形图片分类

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

孟和吉雅

学位年度

2022

学位授予单位

内蒙古大学

语种

中文

中图分类号

段落导航