摘要
手写数学表达式识别(Handwritten Mathematical Expression Recognition,HMER)旨在将手写数学表达式图像转换为相应的LaTeX格式字符串。在人工智能和信息化技术推动社会快速发展的当下,HMER在光学字符识别领域占据着重要地位,尤其是存在大量结构复杂的数学公式的科研论文中,数学表达式的准确识别对于智慧教育至关重要。尽管现有研究已取得一定进展,但目前的研究多使用编码器-解码器结构,其中作为编码器的卷积神经网络或密集型连接网络无法动态调整感受野,对字符尺度存在多种变化的数学表达式仍然存在挑战。其次,现在的方法是将手写体和打印体图像进行对比学习,然而由于手写体与打印体存在分布上的差异,以及个人书写风格的多样性和字符尺度的变化,使得基于对比学习的方法仍面临挑战。为了解决以上问题,本文针对多模态对比学习和多尺度字符识别进行了深入的研究,设计了动态卷积核模块和模态对齐结构,提出了一种新颖的基于动态卷积核和模态对齐的网络模型。本文的主要工作如下: 1.提出了一种全新的动态卷积核模块。由于在数学表达式中存在大量如下标、上标、小数点等尺度变化极大的字符,因此对模型能否有效感知字符尺度的变化提出了更高要求。动态卷积核的特征提取模块通过使用不同大小的卷积核提取手写图像不同尺度的特征,并获得多尺度注意力权重。自适应改变模型的多尺度注意力权重可以动态改变模型的感受野来获取不同尺度的字符特征,通过可视化和消融实验证明,动态卷积核模块能够有效感知手写图像的字符尺度变化,提升识别准确率。 2.提出了一种基于图像文本模态对齐的手写数学表达式算法。针对对比学习手写体图像和打印体图像无法有效学习语义不变特征,本文首次将手写表达式数据集的LaTeX文本标签作为文本模态与手写体图像模态进行对齐。为了实现图像和文本在全局和细粒度上的对齐,首先设计了全局模态对齐方法,对两种模态进行全局尺度上的对齐。接着,设计了全局模态对齐和细粒度模态对齐两个级别的对齐结构,实现图像和文本模态的特征空间匹配,从而学习手写数学表达式在图像和文本两个模态之间的语义不变特征。相比于手写体和打印体对比学习的方法,在三个数据集上识别准确率得到了有效提升。 基于以上两点,本文提出了一种基于动态卷积核和模态对齐的神经网络模型。首先通过将动态卷积核模块嵌入图像编码器提取多尺度图像特征,并使用基于Transformer模型的编码器对LaTeX序列进行编码获取文本特征。然后在模态对齐模块中对图像特征和文本特征进行全局和细粒度对齐,最后通过基于Transformer模型的解码器解码获得LaTeX序列。通过广泛的实验验证,本文所提出的算法在包括CROHME2014/2016/2019和HME-100K在内的四个基准数据集上的识别正确率分别获得了 64.3%、63.2%、65.6%和69.17%的最优性能,证明了算法的有效性。