基于深度学习的场景识别算法研究

邵璇¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

场景识别是目前计算机视觉中最具挑战性的研究领域之一，其准确率远低于物体识别、人像识别等任务。这主要受两方面因素影响，一是场景图像内含有的信息比较复杂，决定其识别结果的因素不仅包括具体物体，通常还包括对象的空间布局、图像背景信息等多层信息，同类场景间差异性大；二是多个场景类别的图像可能共享类似的对象，不同场景的相似性高。针对上述问题，本文利用深度学习方法对场景识别算法进行深入研究，重点研究了注意力机制和多模态特征融合的影响，主要工作如下：针对场景识别算法中图像特征表达能力不足的问题，本文在深度残差网络ResNet-50的三层残差结构中引入坐标注意力机制，加强对跨通道信息的捕获，提高特征的丰富性和多样性，使特征图具备方位感知、位置敏感的特性；在此基础上，改用中心损失函数联合监督策略，改善交叉熵损失对特征聚类能力较差的问题，有效拉近同类特征间距离，增加不同类特征间距离，提升识别准确率。针对场景识别算法中缺乏对物体级信息和上下文信息的关注问题，本文尝试从图像语义的角度来理解场景。主要利用PSPNet语义分割网络的像素级分类能力，在PSPNet中引入空洞卷积模块，扩大特征感受野，获取更为精准的语义分割结果和语义特征得分图；并且设计了一种作用于语义特征得分图的浅层卷积神经网络，用所得到的语义特征来执行场景识别任务，丰富了场景识别的指导信息。针对单一图像特征不能完整准确地描述出所有判别性信息的问题，本文研究了一种基于注意力机制的融合RGB图像特征和语义特征的端到端双支深度学?架构。将语义特征作为一个额外的信息源，把关从RGB图像中提取的特征，增加对象间关系的表达，加强来自常见场景物体特征的学?，同时阻碍场景中无关物体产生的干扰，使网络聚焦到与识别有关的物体上，从而引导正确的识别推断。最后，在MIT Indoor 67数据集和Places365数据集上验证了本文所提算法改进的有效性。

关键词

场景识别/注意力机制/多模态特征融合/深度学习

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

张天良

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航