摘要
目标分类是计算机视觉领域的一个核心问题,在工业界具有广泛的应用场景。当前的目标分类技术主要仍是基于图像视觉特征的,它们被应用在极端光照环境时(如光照不明、过度曝光、阴影遮挡等),由于视觉图像数据质量过低,其识别精度仍不够理想。因此,针对极端环境,本文提出利用微波成像获取不受环境光照影响的电磁散射场数据,并设计有效的视觉特征与微波特征融合的分类框架来提高识别精度。然而,面向极端环境的视觉-微波融合的分类研究面临以下重要挑战。一方面,极端环境下成对的视觉-微波数据匮乏制约着领域发展;另一方面,由于模态迥异,现有模型仍不能实现深度视觉-微波特征的有效融合;此外,视觉图像质量过低也严重制约了多模态融合模型的精度。针对这些挑战,本文进行了如下研究: (1)针对极端环境下多模态数据匮乏,本文构建了两个视觉-微波双模态数据集。本文利用公开的Moeslund’s手势和MNIST数字模型两个视觉图像数据集,首先,分别对手势和数字图像施加不同类型噪声以模拟光照不明和极端光影下的低质量视觉图像样本;其次,针对任意一张原始视觉图像,通过计算电磁学模拟生成对应的微波数据;最后,利用模拟生成的视觉-微波数据对构建两个多模态数据集,为后续极端环境下目标识别方法的研究提供数据保障。 (2)针对视觉-微波模态异构,本文提出基于深度视觉-微波特征融合的分类模型(Visual-Microwave Fusion,VMF)。针对不同模态的数据特性,本文提出了改进的DropConnect网络学习视觉特征,并利用复数卷积神经网络提取微波特征。在手势和数字模型数据集上的结果表明,相比于从低质量图像上提取的单模态视觉特征,融合模型分别提升了10.27%和3.72%的识别精度。 (3)针对视觉图像质量过低,本文在VMF上进一步提出基于跨模态增强和注意力融合的分类框架(Enhanced Attention Visual-Microwave Fusion,EAVMF)。首先,利用生成对抗网络,构建基于微波数据的高质量图像生成模型,并从高质量生成图像中提取预测视觉特征来增强视觉特征;其次,在视觉特征上搭建注意力模块以增强局部关键特征;最终,融合微波特征和强化的视觉特征完成分类。本文利用多任务深度学习框架联合优化多模态分类器和跨模态图像生成器。实验结果表明,预测的视觉特征有助于进一步提升识别精度,且跨模态图像生成任务和多模态分类任务之间相互促进。 在两个多模态数据集上的大量实验说明,本文所提出方法不仅具有更高的识别精度,同时具备优异的小样本学习能力以及对噪声水平的可扩展性。本文的研究内容为极端环境下基于视觉-微波融合的分类研究提供了数据保障,并为后续研究者克服模态异构和视觉图像质量过低带来了启发。