摘要
随着人工智能的不断发展,计算机视觉技术也在快速进步,如今智慧城市的兴起,智能安防作为其中的重要一环得到了广泛的关注。我国经济社会快速地发展,公共场所以及一些特殊场地都有大量的摄像监控,这些监控产生了巨大的视频数据,一旦发生特殊事件,这就需要大量的人力物力来重复查找。因此,视频异常检测作为解放人力和节省物力的极大帮手,能够自动地对视频异常事件作出反应,具有较高的研究价值。 视频作为一种具有丰富时空语义的信息,本文着重于协调两者,将时间和空间两个维度的语义有效地利用。在此之上,本文提出了一种基于3D卷积与卷积长短期记忆相结合的自编码器视频异常检测算法。为了克服以往只针对空间特征进行建模的问题,本文利用视频的时间特征,设计了3D卷积自编码器网络。另外,视频数据帧作为一种特殊的序列数据,引入ConvLSTM,以对视频特征进行进一步的特征处理。3种数据集测试表明,相较于ConvAE、FR+ED和Unmasking等算法,它能够更好地利用时间维度信息来加强特征提取。 此外,为了加速训练和缓解噪声干扰问题,在上述基础上,论文提出了一种残差时空自编码器的视频异常检测算法。对网络模型的深度做了拓展,并使用残差连接进一步增强了模型的能力,将大量不变的背景信息迅速地传播到深层网络,更好地检测视频异常帧。同时引入了感知损失联合函数,缓解了噪声对于建模的干扰。最后在3种主要的数据集上做了相应的实验,实验表明本文所提方法在异常判别以及抗噪声干扰方面优于ConvAE、FR+ED和Unmasking等算法。UCSDPedestrian上的消融实验也表明本文算法的有效性,具有良好的判别能力和对噪声的鲁棒性。 同时根据视频监控的特点,通过场景设计、流程设计以及功能设计等,设计研发了一个校园人行道视频异常检测系统软件,验证了上文所提算法的有效性。