西夏文献注译辅助识别系统平台设计

陈燕¹

扫码查看

作者信息

1. 宁夏大学
折叠

摘要

西夏文字是由西夏王朝创造、使用和记录的一种古文字。西夏古籍文献的解读和分析是西夏学研究的重要手段，由于熟练掌握西夏文字的研究者稀缺，同时传统文献查阅检索工作耗时费力。针对以上问题，本文设计并实现了西夏文献注译辅助识别系统平台，作为西夏文献解读的辅助工具，为西夏古文献研究提供字符辨识、文字检索等便利辅助，提高效率，本系统设计完成包括的主要研究内容如下: (1)确定西夏文字数据源，通过扫描的方式获取98张西夏文献图像版文件，采用文字提取算法对其进行单字提取，将提取的16320个单字样本，按照使用频率分为668类，构建单字样本数据集。通过对照相应的西夏文献参考资料查阅提取文字的汉语释义等信息，并建立MySQL文本数据库。 (2)根据西夏文字的特点搭建文字识别卷积神经网络，在提取的单字样本数据集的基础上进行样本扩充，将其分为测试集和训练集对卷积神经网络进行训练和测试，识别准确率达到80.16％，将其保存为.h5识别模型待使用。 (3)设计实现基于B/S架构的系统交互平台，在Django框架下采用MTV设计模式完成对数据业务的分层处理。前端通过在HTML脚本中嵌入CSS和JQuery来实现Web界面，PHP连接数据库并对数据进行操作，采用轻量级的数据格式Json实现前后端数据交互，建立西夏文献注译识别平台。该辅助识别系统的实现，便于西夏学研究者及爱好者对西夏文字的汉语释义、出处以及所在上下文翻译的查阅与检索。

关键词

西夏文字/MySQL/卷积神经网络/Django框架/注译辅助识别系统

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

孟一飞

学位年度

2021

学位授予单位

宁夏大学

语种

中文

中图分类号

段落导航