摘要
由于传感器设备的限制,单一模态的传感器不能全面描述场景信息。为获取场景的全面信息,图像融合技术应运而生。图像融合旨在将不同传感器拍摄的图像融合为一张图像,增强图像对场景的描述。红外与可见光图像融合是图像融合的重要分支,受到许多研究人员的关注。普通相机在光线充足的情况下可以拍摄充满细节信息的图像,但很难在低光环境下捕捉目标信息。相反,红外相机利用热成像原理能够有效捕捉行人、汽车和其他目标信息。通过融合保留多模态图像中的纹理和显著目标信息,同时去除如噪声和伪影等冗余信息能够改善单一模态图像的不足。基于多模态融合的图像,智能体可以在高层视觉任务(如追踪、识别等)上做出更好的决策,能够在安防、自动驾驶等领域发挥重要作用。本文以深度特征交互技术为基础,以红外与可见光图像融合为主要研究对象,针对基于深度学习图像融合研究现状中存在的问题进行探讨,设计出一系列红外与可见光图像融合方法,研究内容如下: (1)现有红外与可见光图像融合方法存在层级特征融合不充分的问题,为此本文提出了一种基于度量学习孪生网络的红外与可见光图像融合方法。该方法在孪生分支上构建信息交换模块实现层次间互补特征的交换与融合。具体地,信息交换模块利用度量学习与通道注意力机制,自适应地将神经网络中不同层级的互补特征送入另一分支实现特征的交互与融合。为适应融合场景的多样性,本文提出了一种基于信息熵的融合损失函数,它根据图像的信息熵自适应地设定超参数以权衡不同模态图像的信息保留程度。最后,将交互融合深度特征经重建网络得到融合结果。通过在TNO、RoadScene数据集上与其他SOTA方法进行主客观指标比较,检验了本文方法的优越性。 (2)上述方法简单地使用通道注意力机制进行互补特征的交换,模态互补特征的提取受限,影响最终的融合结果。因此本文提出基于跨模态与全局自注意力特征交互的图像融合网络,有效地提取模态互补特征并过滤伪影、噪声等信息。该网络的交互模块利用跨模态注意力机制计算模态局部特征的不相似度,并以此作为特征的交互系数实现孪生分支特征的交互。但是局部不相似度易误判噪声信息为互补特征影响融合结果,由于噪声信息对于本模态图像较为孤立,因此本方法通过计算全局自注意力有效地过滤该类信息。最终的交互系数由局部跨模态注意力与全局自注意力系数两部分组成,有效地提取互补特征并去除噪声信息。为了实现不同尺度特征的交互,本方法在孪生分支中利用空洞卷积提取不同感受野的特征,实现了多层级多尺度特交互。同时,为了确保融合特征的完整性与一致性,本方法提出特征循环一致性损失,使得生成的融合图像具备更全面的源图像信息。 (3)红外与可见光图像数据集并没有融合标签,因此端到端方法需要精心设计融合损失函数,两阶段方法尽管利用图像重建代理任务,但仍需要手工设计特征融合规则,这极大限制了算法的泛化性。本文提出一种基于掩码神经元与特征交互的图像融合方法,该方法仍然是两阶段融合方法,但是无需手工设计特征融合规则即可实现融合,避免了手工设计导致互补特征丢失的情况。具体地,本方法在训练自编码器重建某一模态图像时,掩盖编码器的部分参数。在重建另一模态图像时,同样掩盖部分参数,但是两次掩盖的参数结构互补。通过该设计,不同模态图像提取的特征存在结构互补性。两种模态图像重建均使用同一解码器,为了防止解码器遗忘上一模态重建参数,加入弹性权重固态损失,促使解码器能够同时重建多模态异构特征。为了更有效地融合图像特征,本方法对每一层级的异构特征都进行融合交互操作,并使用跳层结构送入解码器中重建。由于不同模态特征之间结构互补,无需设计融合规则就可实现融合。通过在TNO、RoadScene数据集上与其他SOTA方法进行主客观指标比较,本方法的融合结果有更好的细节表现。