基于深度学习的数学公式识别关键技术研究

邢春梅¹

扫码查看

作者信息

1. 鲁东大学
折叠

摘要

伴随着2020年新冠疫情的爆发，各高校因疫情防控工作不得不开展在线教学工作，大量不可编辑的图像数学公式出现在这一教学过程中，给教师与同学带来了极大的困扰；同时越来越多的文献选用电子文档的方式进行记载，但由于设备的兼容性等问题，文档中的公式多以图片等不可编辑的形式存在，读者无法直接对其进行编辑与复制。因此数学公式的识别研究对更好的开展线上教育工作、方便人们重用数学公式等有着重要的研究意义。本文主要工作有以下三个方面：（1）提出了一个基于目标检测的印刷体数学公式字符识别模型SE_YOLOv4。根据公式日常使用情况构建了印刷体数学公式数据集PME（PrintMathematicalExpression，简称PME数据集）。针对传统公式识别步骤繁琐问题，本文提出使用目标检测技术将公式识别中的字符切分和字符识别两大步骤合二为一，简化了公式识别步骤。为提高公式字符的识别准确率，本文在模型的骨干网络中嵌入SE模块（SqueezeandExcitation，简称SE模块），以更高效的利用输入的数学公式图像；其次为了获得更多的语义信息提高特征的利用率，在骨干网络的后半部分加入密集块；最后对骨干网络的激活函数进行改进，通过实验验证最终采用Hard-Swish函数作为SE_YOLOv4模型的激活函数。本文提出的SE_YOLOv4模型在自建数据集PME上实现了98.96%的识别准确率，识别准确率相比于基准模型YOLOv4提高了1.86%，相比于Up-detr模型与Bidet模型分别提高了9.29%和4.84%。（2）提出了一个基于编码器-解码器的印刷体数学公式识别模型DDFT（MathematicalExpressionRecognitionwithDecoupledDynamicFilterandTransformer）。对自建数据集PME重新标注以适用于印刷体数学公式识别模型的训练和测试；基于RNN（RecurrentNeuralNetwork，简称RNN）的解码器在识别公式序列时易出现梯度消失问题，针对这一问题本文采用基于Transformer的解码器，较好的缓解了梯度消失问题；普通的卷积操作具有卷积内容不可知的缺点，易导致模型在提取特征时无法针对单个数学字符提取其独有的特征，针对这一问题，本文使用解耦的动态滤波器DDF（DecoupledDynamicFilter，简称DDF）替换原有标准卷积中的滤波器，改进后的卷积取名为DDF卷积，这种新的卷积方式在不额外增加计算负担的同时实现了卷积内容可知；普通的数学公式在至左向右的识别过程中易出现公式前后识别不平衡问题，针对此问题本文采用双向辨识的训练方法，缓解了数学公式的识别失衡问题；最后本文提出的DDFT模型在自建数据集PME上实现了94.00%的识别准确率，相比于BTTR模型和SAN模型分别提高了2.75%和2.40%。（3）提出了一个基于优化Transformer覆盖注意力的手写体数学公式识别模型HMCO（HandwrittenMathematicalExpressionRecognitionwithCoverageMessage）。手写体数学表达式的识别难度因个人书写风格因素略高于印刷体，但二者的识别思路基本一致。因此将印刷体识别模型DDFT迁移到手写体表达式识别中，并作出相应的改进以适应手写体的识别。首先，在编码器方面继续使用DDFT模型中的编码器，因其改进的卷积方式可以实现卷积内容可知，有利于针对手写体数学表达式中的相似字符提取其独有的特征；其次，在解码器方面向Transformer模型中加入注意力细化块ARB（AttentionRefinementBlock，简称ARB），ARB可以在多种覆盖机制的作用下对Transformer模型原有的注意力机制进行细化，经过细化的Transformer模型可以将更多的注意力分配到未被解析的字符上，较好的缓解了Transformer模型在识别手写体公式时的覆盖率不足问题。实验表明，与DenseWAP、DenseWAP-TD、BTTR等模型相比，HMCO模型获得了最佳效果，分别在CROHME2014、CROHME2016、CROHME2019测试集中获得了59.88%、60.26%、63.58%的识别准确率。

关键词

数学公式识别/深度学习/模型优化

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

岳峻/周春姐

学位年度

2023

学位授予单位

鲁东大学

语种

中文

中图分类号

段落导航