基于交叉自注意力的多模态图像融合方法

杜群 ¹江亚峰 ¹王占光 ¹袁明新²

扫码查看

作者信息

1. 江苏科技大学苏州理工学院,江苏张家港 215600
2. 江苏科技大学苏州理工学院,江苏张家港 215600;张家港江苏科技大学产业技术研究院,江苏张家港 215600
折叠

摘要

为了提高多模态图像的融合效果,提出一种基于交叉自注意力的多模态图像融合网络,主要利用卷积运算和视觉Transformer的优势进行多模态的图像数据融合.网络采用了双分支结构,首先,将可见光图像与红外图像分别经过相同的卷积模块获取模态特征,为了更有效地学习不同模态图像间的局部关联信息和全局关联信息.其次,将输入图像特征转化为序列模块特征后输入Transformer模块,采用交叉自注意力机制模拟Transformer模块中不同模态图像的对应关系,增加数据解析的维度,提高融合网络对全局信息的保留;然后设计了一个自残差空洞卷积连接网络,用于获得卷积过程中忽略的局部重要信息,增强网络对重点信息的提取能力;最后将融合得到的特征信息通过后续的卷积神经网络获得融合后的图像.为验证方法的有效性,在多模态数据集MS-COCO中的两个公开的红外和可见光图像数据集、磁共振成像和正电子放射断层造影术数据集上进行了大量的实验,并进行定性和定量分析,结果表明,所提出的模型相较于主流融合方法能够取得更好地融合效果.

关键词

多模态/图像融合/Transformer模块/卷积神经网络/交叉自注意力

引用本文复制引用

出版年

2024

装备制造技术

广西机械工程学会

装备制造技术

影响因子：0.252

ISSN：1672-545X

参考文献量7

段落导航