蒙古文古籍文字识别与文本转换研究

齐佩彤¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

近年来，随着数字化技术的不断进步以及数字化图书馆的建设，对蒙古文古籍文本数字化的需求逐渐增长。然而，由于蒙古文的特殊性质，传统文本识别技术难以直接应用于传统蒙古文古籍文字识别。目前，针对蒙古文古籍的相关研究相对较少，现有的研究主要集中在基于文本行识别的现行蒙古文识别。由于现行蒙古文数据量较为充足，而传统蒙古文古籍数量相对稀少，导致进行文本行识别研究的数据量不足。本文转变研究思路，将文本行识别转化为整词识别。研究中采用了DBNET模型来进行传统蒙古文古籍文本检测，目的是通过对文章按整词进行分割，利用半监督学习在制作数据集的同时训练模型。为了进行下一步的文本识别，基于Unicode编码的木刻版格斯尔的文本为基础，按照重复单词去重，制作了一个包含6510个传统蒙古文古籍整词的字典。研究中将文本检测模型的输出结果作为文本识别模型的输入，文本识别模型通过读取文本检测模型输出的图片和标签，按照坐标框进行裁剪,将文本行问题转化为整词识别。由于本文的字典可能无法涵盖所有传统蒙古文古籍字符，故在现有模型基础上加入了字母识别模块，按字母识别生成中间码。根据蒙古文的形态学知识，针对不同名义字符的相同显现形式创建中间码。使用基于单词形状的编码策略进行中间码转换，分析蒙古文字母的变形特点、名义字符在词中的位置以及相邻字符，制定一系列规则，将显现形式相同的不同名义字符进行统一表示。本文针对传统蒙古文古籍字符，从文本检测和识别两个方向展开研究。本文采用了较新的模型，在模型中运用了不同方法以提高模型的准确性和效率。综上所述，本研究为蒙古文古籍文本的数字化处理提供了一种有效的解决方案，有助于推动传统蒙古文古籍的研究和保护工作。

关键词

蒙古文古籍/文字识别/文本转换/名义字符/编码策略

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

孟和吉雅

学位年度

2023

学位授予单位

内蒙古大学

语种

中文

中图分类号

段落导航