基于Transformer和特征融合的行人重识别方法研究

赵义铭¹

扫码查看

作者信息

1. 重庆邮电大学
折叠

摘要

当前，行人重识别在各个领域上都发挥了极大的作用。行人重识别任务的主体目标为行人，且场景较复杂，例如:目标对象被遮挡，或其颜色与背景相近，多个外观相似行人相互干扰等。本文针对背景干扰以及遮挡等问题，引入Transformer自注意力机制用于加强图像中行人特征的权重参数，并结合全局特征和局部特征提取方法增强感兴趣区域的行人特征，以达到有效提升模型性能的目的。根据所提出的网络模型，本文进行了行人重识别应用系统的设计与实现。本文主要研究内容包含以下两个方面: （1）提出了一种结合Transformer结构和卷积神经网络的行人重识别方法。该方法对主干网络进行扩展，增加全局分支网络和局部分支网络，分别提取行人的全局特征和局部特征，并将其进行特征融合。同时基于Transformer结构提出了TransformerFeatureRectify（TFR）模块，该模块通过计算自注意力的方式来纠正或者加强图像中行人部分的权重参数。通过将TFR结构嵌入到主干网络、全局分支网络以及局部分支网络的方式，网络模型能够将重点聚焦到行人部分。同时在Head模块中引入了GeM池化层以及归一化层（BN）,GeM池化层结合了平均池化与最大池化的优点，而归一化层有益于解决多种损失函数联合训练时存在的互相干扰的问题。为了验证模型的有效性，本文在多个行人重识别数据集上进行了对比实验，实验结果表明本文方法在部分数据集上优于对比模型。（2）提出了一种基于双重多尺度Transformer结构的行人重识别方法。该方法主干网络以Transformer结构为基础并进行改进，并在输入图像处理上采取了上下子图像划分分组和滑动窗口取块的方法。上下子图像划分分组降低了遮挡物对行人特征提取的干扰，而滑动窗口取块可以突出遮挡物与行人交界边缘以及背景噪声与行人交界边缘的行人特征。在网络的首层结构中，提出了一种改进的双重多尺度Transformer结构，该结构分别提取图像像素点在水平和垂直方向上的关联关系。并提出了多分支多头自注意力模块用于提取多尺度行人特征，其多分支包括Up-Layer,Mid-Layer,Down-Layer,分别对行人提取不同尺度的特征并对其进行特征融合。为了验证双重多尺度Transformer结构的有效性，本文将模型在多个行人重识别数据集上进行了对比实验，实验结果表明本文方法优于对比模型。

关键词

行人重识别/Transformer/全局分支网络/特征融合

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

刘歆

学位年度

2023

学位授予单位

重庆邮电大学

语种

中文

中图分类号

段落导航