摘要
随着信息技术的快速发展,身份识别已成为公共安全、访问控制、安全服务等领域的迫切需求。同时,监控摄像头的广泛应用,智能化监控已成为应对社会安全挑战的重要手段之一。因此,行人重识在实际应用中具有广泛的应用前景。基于图像的行人重识别已经取得了良好的结果。然而,这些方法通常采用包含有限信息的单帧图像。此外,基于图像的方法对图像质量高度依赖,这对于应用在真实场景存在巨大限制。 与基于图像的行人重识别不同,基于视频的行人重识别不仅包含人物的空间信息,还包含人物的时间信息。近年来,随着大型视频数据集的出现,基于视频的行人重识别越来越受到关注。尽管现有的优秀方法已经取得了有效的进展,但在面对复杂场景时,例如遮挡以及背景干扰因素时,这些方法的性能严重下降。其次,大多数方法往往只关注行人部分显著性区域导致视频特征局部冗余,无法区分外观相似的行人。 因此,针对以上难点,本文的主要研究工作如下: 第一,针对行人遭受遮挡与视频特征局部冗余的问题,本文提出了基于特征引导增强的视频行人重识别网络,该方法包含了特定帧选择方法、特征引导增强模块、特征擦除分支与全局分支。特征引导增强模块的主要目标是增强视频帧中的行人共同特征,同时保留其自身帧级特征。首先,在序列中利用特定帧选择方法选择一个特定帧,然后,计算该帧特征与其他帧特征的空间相似性,并通过注意力与视频帧特征加权求和,达到减小视频帧中遮挡因素影响的目的。其次,由于全局特征提取分支通常关注不同行人之间显著但相似的区域,这将忽略不同行人之间的细微但关键的区别信息。本文提出了特征擦除分支,可以通过随机擦除视频序列的不同区域中的特征来驱动网络学习更全面的信息。 第二,针对背景干扰的问题,本文提出了基于行人分割的视频行人重识别网络。该网络包含了行人分割模块、特征擦除分支和全局分支。行人分割模块对特定帧进行行人分割,利用该掩码进行整体视频序列加权求和,从而减小背景干扰的影响,并结合双分支结构提高网络特征学习能力。 为了证明方法的有效性,在视频行人重识别主流的两大数据集Mars和DukeMTMC-VideoReID上进行了大量的实验,其中本文提出的算法分别在Mars数据集上的Rank1准确率达到了89.3%和89.5%。在DukeMTMC-VideoReID数据集上Rank1准确率达到了95.3%和95.5%。说明本文算法可以有效地减小遮挡因素、视频特征局部冗余以及背景干扰因素对视频行人重识别造成的影响。 最后,本文基于上述算法搭建了相应的视频行人重识别系统。