摘要
西夏文字是由西夏王朝创造、使用和记录的一种古文字。西夏古籍文献的解读和分析是西夏学研究的重要手段,由于熟练掌握西夏文字的研究者稀缺,同时传统文献查阅检索工作耗时费力。针对以上问题,本文设计并实现了西夏文献注译辅助识别系统平台,作为西夏文献解读的辅助工具,为西夏古文献研究提供字符辨识、文字检索等便利辅助,提高效率,本系统设计完成包括的主要研究内容如下: (1)确定西夏文字数据源,通过扫描的方式获取98张西夏文献图像版文件,采用文字提取算法对其进行单字提取,将提取的16320个单字样本,按照使用频率分为668类,构建单字样本数据集。通过对照相应的西夏文献参考资料查阅提取文字的汉语释义等信息,并建立MySQL文本数据库。 (2)根据西夏文字的特点搭建文字识别卷积神经网络,在提取的单字样本数据集的基础上进行样本扩充,将其分为测试集和训练集对卷积神经网络进行训练和测试,识别准确率达到80.16%,将其保存为.h5识别模型待使用。 (3)设计实现基于B/S架构的系统交互平台,在Django框架下采用MTV设计模式完成对数据业务的分层处理。前端通过在HTML脚本中嵌入CSS和JQuery来实现Web界面,PHP连接数据库并对数据进行操作,采用轻量级的数据格式Json实现前后端数据交互,建立西夏文献注译识别平台。 该辅助识别系统的实现,便于西夏学研究者及爱好者对西夏文字的汉语释义、出处以及所在上下文翻译的查阅与检索。