ConvFormer:基于Transformer的视觉主干网络

扫码查看

原文链接

万方数据
维普

中文摘要：针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvForm‑er.ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3％,1.4％和0.5％.

外文标题：ConvFormer: Vision Backbone Network Based on Transformer

外文关键词：

machine visionself-attentionbackbone networkTransformer

作者：

胡杰、昌敏杰、徐博远、徐文才

展开 >

作者单位：

武汉理工大学汽车工程学院,湖北武汉 430070

武汉理工大学现代汽车零部件技术湖北省重点实验室,湖北武汉 430070

武汉理工大学汽车零部件技术湖北省协同创新中心,湖北武汉 430070

武汉理工大学湖北省新能源与智能网联车工程技术研究中心,湖北武汉 430070

展开 >

关键词：

机器视觉自注意力主干网络 Transformer

基金：

湖北省科技重大专项湖北省科技重大专项

项目编号：

2020AAA0012022AAA001

出版年：

2024

DOI：

10.12263/DZXB.20220735

电子学报

中国电子学会

电子学报

CSTPCD北大核心

影响因子：1.237

ISSN：0372-2112

年,卷(期)：2024.52(1)

参考文献量44