摘要
当前人工智能技术飞速发展,基于人工智能的人体行为识别方法在现实生活中有着重要的应用价值,在视频搜寻、安防监控、运动行为分析、智能家居等领域有着广阔的应用前景。对视频中的有效信息进行提取、分类,提高行为识别效果有重要的意义。针对目前行为识别方法不能提取视频中的长时序运动信息、行为识别精度低、时空信息缺乏交互性等问题,本文基于深度学习对人体行为识别进行研究。具体研究内容包括:从提高特征融合的表征能力出发,增强时空信息的交互性,研究基于三支流时空信息融合的行为识别方法,从提高行为判识能力、完成提取长时序运动信息出发设计基于改进增强余弦角度边界的行为识别方法。本文的主要认识如下: (1)为提高时空信息的描述性能,本文在一定改进基础上建立起基于三支流时空信息融合的人体行为识别方法Ts-STIF(Three-stream Spatio-Temporal Information Fusion,Ts-STIF)。Ts-STIF分为三个支流:空间支流、时间支流、融合支流,空间支流提取视频中每帧RGB图像的空间外观信息,时间支流提取密集光流图中的时间运动信息。为了更加高效地融合多源时空特征,构建了多源压缩双线性时空信息融合模块MSTCBF(Multi-Source Spatio-Temporal Compressed Bilinear Fusion,MSTCBF),该模块在继承了压缩双线性采样算法的优点的同时降低了时空特征维度以及进行了时空特征之间的交互,完成了时空特征的融合。最后将三支流的分类预测分数晚融合后得到最终的网络预测分数。最终在UCF101和HMDB51数据集上的实验结果和现有的人体行为识别方法进行对比,证明了本文方法Ts-STIF进行多源时空信息融合后对行为有更好的描述能力,具有较好的分类效果。 (2)为进一步提高行为判识能力,本文设计了一种基于增强余弦角度边界的人体行为识别方法L-C3D(Large Margin Cosine Loss3D ConvNets,L-C3D)。L-C3D采用增强角度边界的方法优化损失函数。增强角度边界的损失函数LMCL提高了同类行为的聚合度,减少异类行为的相似度,有效地减少了同类行为被判识为异类行为,而异类行为被判识别同类行为的问题。为有效提取长时序上的人体行为视频中的特征信息,提高网络模型泛化能力,减少判识误差,以时空分离的方式将3D卷积分解为2D空间卷积和1D时间卷积,增加了输入视频帧的大小,提高了连续输入视频帧的帧数。在UCF101数据集上的实验结果和现有的人体行为识别方法进行对比,证明了L-C3D行为识别方法采用时空分离的方式对于长时序上的人体行为视频片段有更好的识别效果,而损失函数的改进提高了行为识别的判识能力。