首页|蒙古文古籍文字识别与文本转换研究

蒙古文古籍文字识别与文本转换研究

齐佩彤

蒙古文古籍文字识别与文本转换研究

齐佩彤1
扫码查看

作者信息

  • 1. 内蒙古大学
  • 折叠

摘要

近年来,随着数字化技术的不断进步以及数字化图书馆的建设,对蒙古文古籍文本数字化的需求逐渐增长。然而,由于蒙古文的特殊性质,传统文本识别技术难以直接应用于传统蒙古文古籍文字识别。目前,针对蒙古文古籍的相关研究相对较少,现有的研究主要集中在基于文本行识别的现行蒙古文识别。由于现行蒙古文数据量较为充足,而传统蒙古文古籍数量相对稀少,导致进行文本行识别研究的数据量不足。 本文转变研究思路,将文本行识别转化为整词识别。研究中采用了DBNET模型来进行传统蒙古文古籍文本检测,目的是通过对文章按整词进行分割,利用半监督学习在制作数据集的同时训练模型。为了进行下一步的文本识别,基于Unicode编码的木刻版格斯尔的文本为基础,按照重复单词去重,制作了一个包含6510个传统蒙古文古籍整词的字典。研究中将文本检测模型的输出结果作为文本识别模型的输入,文本识别模型通过读取文本检测模型输出的图片和标签,按照坐标框进行裁剪,将文本行问题转化为整词识别。由于本文的字典可能无法涵盖所有传统蒙古文古籍字符,故在现有模型基础上加入了字母识别模块,按字母识别生成中间码。根据蒙古文的形态学知识,针对不同名义字符的相同显现形式创建中间码。使用基于单词形状的编码策略进行中间码转换,分析蒙古文字母的变形特点、名义字符在词中的位置以及相邻字符,制定一系列规则,将显现形式相同的不同名义字符进行统一表示。 本文针对传统蒙古文古籍字符,从文本检测和识别两个方向展开研究。本文采用了较新的模型,在模型中运用了不同方法以提高模型的准确性和效率。综上所述,本研究为蒙古文古籍文本的数字化处理提供了一种有效的解决方案,有助于推动传统蒙古文古籍的研究和保护工作。

关键词

蒙古文古籍/文字识别/文本转换/名义字符/编码策略

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

孟和吉雅

学位年度

2023

学位授予单位

内蒙古大学

语种

中文

中图分类号

TP
段落导航相关论文