摘要
行人重识别技术在监控系统中作用显著,逐渐得到了广泛的应用。按照处理对象的不同,行人重识别可以划分为基于图像的行人重识别和基于视频的行人重识别。基于图像的行人重识别侧重于利用静态特征,如人体轮廓,穿着颜色等来识别,而基于视频的行人重识别包含了更多的行人信息,在包含静态行人信息的同时还包含丰富的行人动态特征,如步态、行走速度等。本文针对基于视频的行人重识别中面临的遮挡残缺、行人服饰姿态相似、以及姿态多变和特征融合损失等问题,在行人特征补全、空间特征泛化和时空特征融合三个方面进行研究,主要的研究内容如下: (1)针对现实场景复杂,获取到的行人被遮挡问题,本文提出了一个基于级联注意力的特征补全方法,利用行人的姿态关键点信息和注意力机制来对遮挡和残缺的行人进行逐步补全,采用生成对抗网络保证生成的行人和待补全行人的相似性。具体为通过OpenPose获取行人的关键点信息并对行人的完整度进行打分、比较。之后选用完整度评分最高的行人和其他存在遮挡的行人进行配对,根据配对信息和级联的注意力迁移网络对存在遮挡的行人进行补全。在MARS数据集上和不同的基线网络相比,当以AP3D为基线时该方法在mAP上提升了0.6%。实验验证了本文提出的特征补全方法的有效性,为进一步提取行人空间、时序特征奠定了基础。 (2)针对部分视频帧行人相似,难以区分问题,本文采用了一个基于多头注意力机制的特征泛化方法进行空间特征提取。该方法提出一个由有限显著区域向更广泛区域过渡的模块,通过放大帧间差异,逐渐扩大连续帧的注意力区域,使得获取特征关注行人的更多有效区域。帧级特征在保证完整性和多样性的同时,包含更多细节,从而在多帧融合后生成信息量更大的视频级特征。本文方法在MARS数据集上,mAP和Rank-1指标上达到了86.3%和91.7%。在iLIDS-VID数据集上Rank-1和Rank-5分别是92.4%和98.4%。在MARS数据集上与基线网络对比,mAP指标提升了0.5%。通过和其他特征提取模型进行对比,验证了该方法可以有效提升相似行人的识别能力。 (3)为有效融合时空信息,进一步解决遮挡和外观相似行人难以区分的问题,提出一个基于全局上下文和金字塔网络的时空特征融合模块。该模块通过全局上下文网络对多帧特征进行长时建模,全局上下文网络融合了Non-local和SE-Net的优点,参数量更小且可以建立长时依赖,由金字塔逐层级的融合行人相邻帧的空间和时间特征,减少特征融合的损失。本文在MARS、DukeMTMC-VideoReID和iLIDS-VID三大常用数据集上评估提出的方法,大量实验表明,本文提出的网络表现良好。在iLIDS-VID数据集上,Rank-1和Rank-5指标分别达到了90.9%和98.1%,实现了目前较为先进的准确率。