摘要
近年来,异常行为识别在真实的视频监控场景中应用越来越广泛。而暴力行为和人员聚集作为两种典型的群体行为,人员之间距离较近,容易出现遮挡情况,信息的缺失导致识别的准确率较低。针对该问题,本文将算法的输入从单视角扩展成多视角,结合多个视角的信息来提高暴力行为和人员聚集的识别准确率,并且将多视角识别方法应用在视频监控系统中。主要工作和贡献如下: 1.目前一些算法认为多视角的数据是平等的,并以等量权重将所有视角数据融合,忽略了不同视角的视频因拍摄距离和遮挡情况本身就对识别存在差异性的问题。针对该问题,本文提出一种基于多视角时序差分网络(TDN)的暴力行为识别方法。首先,本文将TDN的输入扩展成多视角,加入跨段注意力模块进行特征提取,其次,使用背景抑制帧代替原始帧突显移动目标的纹理特征并计算出每个视角图像的置信度,最后,将视角置信度添加到调和双线性池化模块中进行多视角特征融合。实验结果表明,在公开数据集CASIA-Action和自制数据集上,本文提出多视角方法的识别准确率相较于现有的单视角行为识别方法取得了更好的效果,融合方法也优于改进前的调和双线性池化方法。 2.针对单个视角视频因为人员遮挡或拍摄死角情况容易出现人员误检测、漏检测和定位精度低的问题,本文提出一种基于多视角位置估计的人员聚集识别方法。首先检测所有视角中的人员,并将检测框映射到鸟瞰图中得到实际的物理坐标,然后基于KM算法匹配不同视角的相同人员,对每个人员从各个视角里选择置信度最高的位置信息作为定位依据。接着改进ByteTrack算法实现人员的多视角跟踪,最后依据鸟瞰图的位置信息和跟踪信息进行人员聚集识别。实验结果表明,在公开数据集WildTrack和自制数据集上,本文提出的方法相较于单视角YOLOX有效降低了漏检率和误检率,并且减小了鸟瞰图人员定位的误差,为人员聚集识别提供更有效的信息。 3.为了进一步验证多视角识别算法在视频监控系统中的有效性,本文构建了一个多视角视频监控系统。实验表明,相比单视角的视频监控系统,本文构建系统在各类异常行为上的识别准确率取得了更好的效果,并能稳定运行,满足视频监控的基本需求。