首页|基于融合CNN和Transformer的图像分类模型

基于融合CNN和Transformer的图像分类模型

扫码查看
在传统的卷积神经网络(CNN)中,卷积算子擅长提取局部特征,但难以捕获全局表示;而由级联自注意力机制构成的视觉Transformer模型可以捕获特征的长距离表示,但同时会忽略局部特征细节.为此,提出了一种基于融合CNN和视觉Transformer的图像分类模型.该模型主要由CNN分支和级联自注意力模块Transformer分支构成,通过CNN分支中每个卷积层提取到的局部特征输入到Transformer分支中,以弥补Transformer分支缺失的局部特征,使模型同时融合局部特征细节和全局表示,提高图像分类的准确率.在Oxford Flowers-102和Caltech-101数据集上实验结果表明,与传统的卷积神经网络以及视觉Transformer相比,提出的基于融合CNN和Transformer的图像分类模型分类准确率更高.
Image classification model based on fusion of CNN and transformer

何明智、朱华生、李永健、唐树银、孙占鑫

展开 >

南昌工程学院信息工程学院,江西南昌330099

CNN Transformer 局部特征 全局表示 分支融合

国家自然科学基金

61861032

2022

南昌工程学院学报
南昌工程学院

南昌工程学院学报

影响因子:0.272
ISSN:1006-4869
年,卷(期):2022.41(4)
  • 2
  • 1