首页|敦煌藏文古籍文本识别研究

敦煌藏文古籍文本识别研究

杨晓龙

敦煌藏文古籍文本识别研究

杨晓龙1
扫码查看

作者信息

  • 1. 西藏大学
  • 折叠

摘要

器部分进行针对性的改进,通过藏文预处理、迁移学习、改进的整页识别模块并加入合成数据,并通过消融实验验证改进的网络对文字识别的有效性,对敦煌藏文古籍识别中常见错误进行归纳总结。 本文取得了以下研究成果: 1.本文使用《法国国家图书馆藏敦煌藏文文献》第一册图像结合多点标注方法构建了敦煌藏文文献数据集,其中包含3977张行图像和1000张整页图像,合成了5468张不同质量的整页印刷体图像数据集。 2.实现了基于迁移学习对敦煌藏文文献识别。其中特征提取模型对比了VGG,ResNet系列进行实验,错误率由原来的57.77%、72.77%降低为 17.29%、51.22%。验证了迁移学习在Encoder-Decoder框架下具有更低的识别错误率和更快的收敛速度。 3.本文使用OrigamiNet、VAN、SPAN、IFA四个算法在印刷体数据集上平均达到了0.105%、17.763%、9.29%、4.22%的错误率。在敦煌藏文文献数据集下改进后的模型字符错误率由原来的 5.57%降低为4.84%。基于以上实验,本文将常见的错误归纳为了手写风格、相似字丁、版面问题和其他问题这4类。

关键词

藏文古籍/文本识别/特征提取/迁移学习

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

高红梅

学位年度

2023

学位授予单位

西藏大学

语种

中文

中图分类号

TP
段落导航相关论文