基于编码--解码模型的离线手写数学公式识别方法研究

胡健¹

扫码查看

作者信息

1. 厦门大学
折叠

摘要

数学公式在很多领域像科学研究、金融和统计中都有着非常广泛的应用。目前将数学公式输入到电子设备最常用的方式包括使用排版系统比如LaTex和公式编辑器比如MathType，但是这些方式都要求用户掌握大量的语法规则。还有一种方式是用户在手写设备上书写数学公式，这对于编写科学文档等需要使用大量数学公式的场景中更加有效便捷，因此实现手写数学公式自动识别的需求变得越来越迫切，同时随着智能手机和其他手写输入设备的发展也推动了该领域的研究。虽然现有的识别方法已经实现了较好的识别效果但仍然存在一定的不足，据此本文针对这些不足做出了改进，主要研究工作和创新点如下: (1)针对现有模型在解码过程中存在的注意力漂移现象，提出了一种使用双注意力模块的序列解码器结构。全覆盖注意力模块用于引入历史对齐信息，位置注意力模块用于引入解码位置信息，并且还加入了一个动态融合模块用于实现两个注意力模块之间的自适应融合。实验结果表明本文提出的解码器结构有效缓解了注意力漂移的现象，提高了模型的识别性能。 (2)针对现有模型由于共同学习对齐和分类，当不能学习到对齐时会使模型学习到错误分类的问题，增加了一个中心掩码检测模块用于引入中心掩码作为额外的监督信息。由于整个模型是一起训练的，因此不仅可以让编码器能够编码出更好的深层特征，而且可以引导解码器的注意力机制关注到所有存在的数学符号并且尽可能关注符号的中心位置。通过和目前主流的识别方法进行对比，本文的方法在CROHME2014和2016测试集上均实现了更高的识别精度。 (3)针对手写体数学公式训练数据缺乏的问题，本文提出了一种新的数据增广方法，采用随机替换符号的方式生成新的公式样本。通过在不同的模型中应用本文提出的数据增广方法，各个模型的识别性能均有所提升。

关键词

手写数学公式/自动识别/注意力模块/数据增广

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

苏松志

学位年度

2021

学位授予单位

厦门大学

语种

中文

中图分类号

段落导航