摘要
行人重识别旨在从多个互不交叉的摄像头拍摄的视图中识别一个特定的行人。现有研究多数基于一个前提,即用于检索的行人图像需要包含完整的身体躯干信息,且都是可见光拍摄的图片。然而现实世界中,行人不可避免被障碍物遮挡,导致身体信息不完全,从而带来遮挡行人重识别的难题。此外,传统RGB摄像头在夜间低光照环境难以捕捉清晰的行人图片,24小时全天候监控的现实需求引入IR摄像头捕获低光环境行人图像,跨RGB-IR模态的行人重识别的研究也因此受到关注。遮挡和跨模态场景在现实世界中普遍存在,这使得行人重识别技术在实际落地应用过程中面临诸多挑战。对于遮挡行人重识别,流行的方法是通过定位行人未被遮挡区域并提取特征,从而避免引入背景噪声等问题。未被遮挡区域定位的典型做法有两种,一是引入姿态估计模型来辅助判断行人身体区域,其缺点是模型训练复杂,姿态估计模型的引入也带来了额外的偏差;二是,通过将行人身体信息硬划分为不同局部区域,再按区域提取局部特征来规避遮挡部分,其缺点是方法不灵活,面对复杂情况表现较差。当前跨模态行人重识别通常是基于卷积神经网络(CNN)进行特征提取,模型设计复杂,性能也已接近上限。近年来,Transformer的流行及其在自然语言领域良好的性能表现,使其在行人重识别领域也受到了研究者的青睐。 本文对传统、遮挡及跨模态行人重识别的方法进行了综述,总结了现有研究中仍然存在的问题。然后基于Transformer技术对行人重识别任务进行了初步探索,在遮挡和跨模态场景两个难点上进行了针对性的模型设计,并进行了实验验证,取得了出色的性能表现。具体的研究内容如下: (1)提出了一种基于Transformer和特征融合的传统行人重识别网络,通过特征融合的方式聚合Transformer的多层次信息。设计了一种标记选择模块,即相互注意特征融合模块,通过计算注意力得分选取网络不同层次具有鉴别性的特征标记,实现了多层次的特征融合,获得了更丰富的行人特征表示,在传统行人重识别任务中取得了良好的性能表现。 (2)基于Transformer,提出了一种用于遮挡行人重识别的融合全局和局部特征的双分支网络。通过局部分支中的自注意力特征选取模块选取具有鉴别性的标记构建局部特征,加强网络对局部特征的提取能力。同时,设计目标一致性损失来指导网络训练,该损失比传统方法有更加一致的收敛目标。实验以及结果可视化证明了所提方法的有效性。 (3)提出了一种基于Transformer的模态特有嵌入与共有门控的跨模态行人重识别网络。针对跨模态行人重识别任务作出了双流的网络设计,并且设计了模态特有嵌入、灰度增强、模态共有门控模块。通过灰度增强弥补了RGB与IR巨大的模态间差异,模态特有嵌入保留了来自不同模态的特征信息,最后通过模态共享门控层约束网络关注不同模态共有的特征,实验证明了所提方法在跨模态行人重识别任务获得了优秀的表现。