首页|自动批阅中手写英文识别的关键技术研究

自动批阅中手写英文识别的关键技术研究

宋冬雪

自动批阅中手写英文识别的关键技术研究

宋冬雪1
扫码查看

作者信息

  • 1. 北京工业大学
  • 折叠

摘要

现阶段,一线教师最大的教学负担来自于每天对学生上交的海量作业的批改,若能通过机器进行作业的自动批改,将在很大程度上减轻教师的负担。而自动批阅的首要问题,是需要能够对学生手写答案进行精准识别,因此手写识别的准确率至关重要。 本文分析了我国中小学生英文的书写特点、习惯,并研究了自动批阅中手写英文识别的关键技术。在基于字符分割的手写英文识别方法中,主要针对非约束书写场景中出现的粘连字符的分割和易混字符的二次识别问题,提出了解决办法和改进方案。之后研究了基于深度学习的端到端手写英文识别方法,实现了单词级的整体识别。 具体研究内容如下: (1)针对脱机手写英文中粘连字符的分割问题,提出了一种改进的滴水分割算法。首先基于图像的结构特征找到候选分割点,以此计算得到分割算法的起始分割点;之后依据字符的形态走向设计分割滴落点的选择规则,相连所有滴落点构成分割路径。对于不同类型的粘连字符,通过分析粘连位置的连接方式,采取分段式分割后再合并成整条分割路径的策略进行分割。最后在含有多个粘连字符的图像中得到多条分割路径后,利用构建“分割路径树”的评价方法选出最优分割路径,完成对粘连字符图像的分割。 (2)针对手写英文字符识别,首先进行了手写英文字符数据集的扩充及筛选。在收集国外已公开的手写英文字符数据集的基础上,进一步增加收集了我国真实中学中不同年级段的学生手写英文数据,并经过图像形变操作与筛选后,建立适合我国实际应用场景的手写英文字符数据集。之后基于CNN设计网络结构,并在构建的数据集上进行了训练与测试,将训练得到的模型用于单个手写英文字符的识别。 (3)针对手写英文识别中易混字符的识别问题,提出了一种结合多维特征和推荐候选项以区分易混字符的识别方法。首先利用识别模型对手写英文字符进行识别,根据初始字符识别信息确定易混字符的类别;之后利用多维特征,构建特征向量,设计了不同类别易混字符的识别规则;同时根据语料库以及单词中字符间的构成关系,将易混字符和其相连字符组成候选项单词,通过基于编辑距离和贝叶斯概率的计算得到推荐候选项,最终对易混字符进行识别判断。 (4)针对手写图像中存在一些复杂背景影响和预处理困难的情况,尝试了基于深度学习算法的识别方法,构建了基于CRNN的网络模型对图像进行了单词级的整体识别,该方法将特征提取、序列预测和预测结果对齐算法在同一个结构中完成,实现了端到端的训练和识别。 实验表明,在满足一定的条件下,本文中提出的分割算法对粘连手写英文字符的分割精准度上有良好的表现。同时对于易混字符的识别,本文算法进一步加强了字符识别结果的可信度,从而提高了手写英文的整体识别准确率,具有一定的应用价值。

关键词

自动批阅/手写识别/字符分割/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

付鹏斌

学位年度

2021

学位授予单位

北京工业大学

语种

中文

中图分类号

TP
段落导航相关论文