摘要
随着监控视频的数据规模不断增加,人工监控已经难以满足实际应用需求。如何利用深度学习技术,实现对海量视频数据中异常事件的智能化检测,成为了当前计算机视觉领域的一个重要的研究课题。由于异常事件存在上下文相关性、稀少性和多样性,现实应用中难以收集到数量充足且种类齐全的异常样本。因此,现有方法采用了半监督设置,通过建模数据集中正常事件的模式,将偏离该模式的事件判定为异常。更进一步地,研究者们将半监督视频重建任务作为视频异常检测的代理任务(PretextTask),以视频样本的重建质量为依据来度量该样本的异常程度。 由于半监督视频重建任务要求模型关注视频的像素细节而非高层次语义信息,模型的异常检测能力有限。此外,半监督视频异常检测算法需要投入大量的人力来标注视频数据,因而无法在现实场景中得到广泛应用。针对上述问题,本文从半监督视频重建问题开始研究,接着探索了半监督设置和无监督设置下的视频异常检测问题,最终提出了一种无需人工标注数据且具有较优的异常检测能力的视频异常检测方法。本文的主要研究内容与创新点总结如下: (1)由于缺乏异常样本,现有方法难以在不损害模型的重建能力的前提下控制异常样本的重建质量。针对这一不足,本文提出了基于多尺度记忆模块的半监督视频重建方法。本文引入了跳连结构来提高模型的特征提取能力,并设计了多尺度记忆模块来避免信息在跳连结构中直接传播,提高了模型在半监督视频重建任务上的性能。 (2)由于现有方法所使用的代理任务局限于像素级别的重建预测任务,模型难以提取视频中的高层次语义信息,模型的异常检测能力有限。针对这一不足,本文提出了基于特征对比的半监督视频异常检测方法。该方法通过学习样本特征间的关系,提高了模型的特征提取能力。此外,本文提出了先验知识指导的负样本生成与伪标签指导的难分正样本挖掘方法,并设计了基于特征池的训练策略,进一步提高了模型的异常检测能力。 (3)由于未利用多模态数据来训练模型,现有方法难以检测视频中与多模态语义信息相关的异常事件。针对这一不足,本文在特征对比任务的基础上,提出了一种基于多模态一致性的无监督视频异常检测方法。该方法以多模态特征间的一致性为依据来生成样本的伪标签,提高了伪标签的准确性。此外,本文使用自训练策略和三元特征对比损失函数来训练模型,最终得到一个具备较优的视频异常检测能力的模型。 (4)本文在多个数据集上进行了实验,验证了本文所提出方法的有效性。