基于深度学习的中文图片文字提取与纠错

左壮壮¹

扫码查看

作者信息

1. 天津理工大学
折叠

摘要

中文文本纠错是一项实现中文语句自动检查、自动纠错的任务，其主要目的是提高语言文字规范性的同时降低人工校验成本。因此，如何快速找出文本中的错误并准确纠正成为了自然语言处理领域一个重点研究课题。目前大部分研究者对文本纠错任务是直接针对文档文本进行的，忽略了在实际应用场景中图片文字转换成文本的过程。为解决新媒体平台中的图片文字内容审核，本文提出了一个深度学习模型RepOCR用于解决光学字符识别、一个基于ERNIE和BiLSTM-CRF序列标注结合的中文检错纠错模型，将中文文本自动校对从图片文字提取到文本检错纠错整合起来，使中文文本纠错拓展到图片中的文字，不仅局限于文本文档。本文主要研究内容如下：（1）研究光学字符识别提取图片文字的方法。提出了一个RepOCR字符识别模型，模型包含一个重参数化的骨干网络，让训练网络的多路结构转换为推理网络的单路结构，使网络有着高效的推理速率。除骨干网络外，为了让小尺寸目标特征信息与大尺寸目标特征信息更好的融合，在骨干网络后面加入GroupFPN颈部结构进行特征融合。除此之外，使用聚类的方法，生成文本的预测框尺寸和纵横比，以增强模型对长文本的识别能力。（2）研究中文文本错误检测方法。参考目前文本纠错主流的序列标注深度学习模型，提出一个基于ERNIE和BiLSTM-CRF序列标注结合的检错框架，用ERNIE进行文本向量化，BiLSTM双向结构提取上下文的信息进行拼接生成双向的词向量，再通过CRF计算联合概率增加对邻近词标签的依赖性优化整个序列，从而解决标注偏置等问题。经过序列标注模型后得到一个包含文本正确标签和错误标签的标签序列。（3）研究中文文本错误纠正方法。针对不同的错误类型运用多种策略进行纠错，冗余字词直接删掉，错字采用掩码语言模型、混淆集匹配、集束搜索，缺字和乱序错误使用序列生成推断出正确字词。掩码语言模型就是将错字错误、缺字错误出错或缺失部分替换为[MASK]掩码标签，预测错字、缺字错误的位置正确的字词，得到若干个候选字词后再通过计算每个候选字词的困惑度选取出最可能的字词。通过实验结果表明，本文提出的基于RepOCR的光学字符识别模型提高了对图片文字不同尺度文本的识别精度和提取速度，基于ERNIE和BiLSTM-CRF序列标注的中文检错纠错模型与其它模型对比取得了良好的效果。

关键词

深度学习/文字提取/中文文本检错纠错/序列标注/多策略纠错

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

王法玉/朱玉来

学位年度

2023

学位授予单位

天津理工大学

语种

中文

中图分类号

段落导航