摘要
针对目前基于transformer的图像分类模型直接应用在小数据集上性能较差的问题,本文提出了 transformer自适应特征向量融合网络,该网络在特征提取器中将不同阶段的特征进行融合,减少特征信息丢失的同时获得更多不同感受野下的信息,同时利用最大池化来去除特征中的冗余信息,从而使提取的特征更具有判别性.此外,为了充分利用图像的各级特征信息来进行分类预测,本文将网络各阶段产生的特征向量进行融合,使融合后的特征向量更具有表征能力,从而减少网络对大数据集的依赖,使网络在小数据集中也能获得很好的性能.实验表明,本文提出的算法在数据集Mini-ImageNet-100、CIFAR-100和ImageNet-1 k上的TOP-1准确率分别达到了74.22%、85.86%和81.4%.在没有增加计算量的情况下,在baseline上分别提高了 6.0%、3.0%和0.1%,且参数量减少了 18.3%.本文代码开源在"https://github.com/xhutongxue/afvf".