首页|基于深度学习的场景识别算法研究

基于深度学习的场景识别算法研究

邵璇

基于深度学习的场景识别算法研究

邵璇1
扫码查看

作者信息

  • 1. 电子科技大学
  • 折叠

摘要

场景识别是目前计算机视觉中最具挑战性的研究领域之一,其准确率远低于物体识别、人像识别等任务。这主要受两方面因素影响,一是场景图像内含有的信息比较复杂,决定其识别结果的因素不仅包括具体物体,通常还包括对象的空间布局、图像背景信息等多层信息,同类场景间差异性大;二是多个场景类别的图像可能共享类似的对象,不同场景的相似性高。针对上述问题,本文利用深度学习方法对场景识别算法进行深入研究,重点研究了注意力机制和多模态特征融合的影响,主要工作如下: 针对场景识别算法中图像特征表达能力不足的问题,本文在深度残差网络ResNet-50的三层残差结构中引入坐标注意力机制,加强对跨通道信息的捕获,提高特征的丰富性和多样性,使特征图具备方位感知、位置敏感的特性;在此基础上,改用中心损失函数联合监督策略,改善交叉熵损失对特征聚类能力较差的问题,有效拉近同类特征间距离,增加不同类特征间距离,提升识别准确率。 针对场景识别算法中缺乏对物体级信息和上下文信息的关注问题,本文尝试从图像语义的角度来理解场景。主要利用PSPNet语义分割网络的像素级分类能力,在PSPNet中引入空洞卷积模块,扩大特征感受野,获取更为精准的语义分割结果和语义特征得分图;并且设计了一种作用于语义特征得分图的浅层卷积神经网络,用所得到的语义特征来执行场景识别任务,丰富了场景识别的指导信息。 针对单一图像特征不能完整准确地描述出所有判别性信息的问题,本文研究了一种基于注意力机制的融合RGB图像特征和语义特征的端到端双支深度学?架构。将语义特征作为一个额外的信息源,把关从RGB图像中提取的特征,增加对象间关系的表达,加强来自常见场景物体特征的学?,同时阻碍场景中无关物体产生的干扰,使网络聚焦到与识别有关的物体上,从而引导正确的识别推断。 最后,在MIT Indoor 67数据集和Places365数据集上验证了本文所提算法改进的有效性。

关键词

场景识别/注意力机制/多模态特征融合/深度学习

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

张天良

学位年度

2023

学位授予单位

电子科技大学

语种

中文

中图分类号

TP
段落导航相关论文