摘要
藏文乌金体古籍文字识别是古籍文字识别领域的一个难题.针对藏文乌金体古籍中存在的文字粘连和背景复杂问题,提出一种基于注意力机制的藏文乌金体古籍文字识别方法.该方法主要包含两部分,编码器部分采用卷积神经网络(CNN)与双向长短期记忆(Bi-LSTM)获得图像文本的特征序列和序列标注,解码器部分使用注意力机制计算注意力权重并与循环神经网络(RNN)相结合得出识别结果.采用实验室的616 张藏文乌金体古籍作为实验数据集以及藏文字丁准确率作为实验评测指标.采用两种文字识别模型作为基线模型,从模型大小和识别率进行对比,文中识别模型在模型大小和识别效果上都优于其他两个模型,文中模型大小41.2 MB,相比基线模型中最小的优化了36 MB,字丁识别准确率90.55%,相比基线模型中最好的结果提高了7.94 百分点.表明所提出的基于注意力机制的藏文乌金体古籍识别模型,显著提高了藏文乌金体古籍中的粘连文字和背景复杂图像的识别效果.
基金项目
国家重点研发计划重点专项(2017YFB1402202)
西藏自治区科技创新基地自主研发项目(XZ2021HR002G)