摘要
文本是信息传播的重要媒介,文本数据主要包括文档文本和图像文本两种形式。因自然语言的表达多样性,文档文本复杂多样且充斥着大量冗余信息,如何从中真正地理解文本语义并提取有效信息,成为了国内外研究者们的研究热点。随着自然语言处理和深度学习研究的不断发展,针对文档文本逐渐发展了基于深度学习的文本相似度匹配和文本蕴含识别两个重要研究方向,分别面向文档文本之间的相似关系和蕴含关系进行有效推理。 图像文本也广泛存在于生活中的各个角落,这类数据虽由图像呈现,却同样包含着值得关注的文本内容信息。对于图像文本的内容识别研究中,以自然场景下的文本识别任务最具挑战性,容易受到字体多样性、模糊成像和复杂背景等因素的影响。随着计算机视觉领域的发展,基于深度学习的场景文本识别能有效缓解多因素影响带来的识别困难问题,其识别准确率的提升能够加强计算机对图像文本的解读能力。 本文主要基于深度学习方法进行文本推理与识别,实现文档文本的文本相似度匹配和文本蕴含识别两项语义推理研究,以及实现图像文本的场景文本识别研究,完成的主要工作内容如下: (1)针对文本相似度匹配,提出一种多特征融合模型,该模型基于孪生网络结构进行改进设计,融合词形特征和语义特征,其中词形特征基于传统统计特征方法实现,极大保留了关键词和词频相似度特征;语义特征基于深度学习方法实现,能够抽取深层语义信息,并且引入多头注意力机制集成不同子空间的信息以理解字词之间的依赖关系。实验结果表明,该模型在面向金融证券智能问答领域时,文本相似度匹配准确率能达到94.6%,相比于传统单一神经网络模型和基于注意力机制的神经网络模型,都取得了更好的相似度匹配效果。 (2)针对文本蕴含识别,提出一种通过中心主旨信息微调预训练语言模型BERT-base,并融合成分句法分析的模型。其中BERT-base能缓解人工标注语料缺少所产生的模型泛化性不足的问题,并在模型中添加主旨三元组,人为地修正模型注意力方向,并运用注意力机制对语言模型所有隐藏层向量进行注意力加权,以保留更多且有效的全局语义信息。同时,以Tree-LSTM网络为基础,对具有成分句法分析的字符串文本数据转换为网络可处理的树型结构数据后,进行有效编码获取字词间局部结构信息。实验表明,该模型在公共数据集SNLI、MNLI-matched和MNLI-mismatched上,文本蕴含识别准确率分别达到90.8%,84.4%和83.7%,相比于BERT-base和其他微调模型取得了较好提升。 (3)针对场景文本识别,提出一种HRNet编码与双分支解码框架下的场景文本识别模型。在编码模块中,采用HRNet进行特征提取的同时结合监督注意力模块加强重要特征学习,并输出四种分辨率特征图。解码模块采用超分分支和识别分支并行的双分支结构,其中超分分支将编码模块获得的最高分辨特征图作为输入,通过转置卷积上采样恢复图像;识别分支将四种分辨率特征图通过独立转置卷积层进行多尺度融合,进而输入到注意力解码器进行文本识别。另外,本文将超分分支仅用于训练而在测试时舍弃,以减少模型参数量。该模型在公共合成数据集Synth90K、SynthText上进行训练,在7种真实场景数据集上进行测试。与ASTER、TextSR和SCGAN等近几年经典模型相比,该模型的识别准确率得到了提高,在IC15、SVTP和CUTE80等不规则和模糊的数据集上,识别准确率分别达到82.8%,83.1%和83%。