摘要
基于视频数据的人体行为识别研究是计算机视觉领域的重大研究方向。随着计算机硬件性能的不断提升和互联网用户规模的不断扩大,人体行为识别技术在智能安防,无人驾驶,虚拟现实等方面具有广阔的应用前景和极高的研究价值。近年来,基于深度学习的人体行为识别研究进展迅速,其中,基于双流卷积神经网络的人体行为识别研究是主流方向之一。本文在深入研究原始双流卷积神经网络的基础之上,以提升网络模型的鲁棒性和特征提取能力,提高网络模型行为识别准确率为目的展开研究,具体工作概况如下: 1)提出一种基于多尺度特征提取的双流人体行为识别网络。在原始双流卷积神经网络中,时间流和空间流的卷积核尺寸大小相同,网络模型提取不同尺度大小物体的特征能力较差,识别性能不佳。本文在原始双流卷积神经网络模型中引入金字塔型卷积模块,并且采用ResNet作为主干网络。金字塔型卷积采用分组卷积的方式和尺寸大小不同的卷积核,在未明显提高计算量的前提下,提高了网络模型针对多尺度特征的提取能力。同时ResNet网络具有更深的网络结构和更强的特征提取能力。在公开数据集UCF101上的实验结果表明,本文提出的网络模型的识别准确率相较于原始双流卷积神经网络提高了2.31%,相较于以ResNet作为主干网络的网络模型提高了1.53%。 2)提出一种基于改进残差模块的双流人体行为识别网络。在先前提出的网络模型基础之上,针对残差模块感受野利用不充分导致特征提取能力不足的问题,探索采用两种不同的方式改进残差模块。第一种为选取Res2Net模块作为新的残差模块,以扩大感受野,在更高的层次上捕捉特征的细节信息和全局上下文信息。第二种是基于iResNet策略改进残差模块,以更好地挖掘特征之间的关系,提升模型的鲁棒性和泛化能力。实验结果表明,相较于第三章提出的网络模型,以Res2Net作为残差模块的网络模型的识别准确率提高了0.85%,采用iResNet方式改进残差模块的网络模型的识别准率提高了1.44%。相较于其他行为识别算法,如IDT、P3D、FCSTN,两种改进残差模块的网络模型的识别准确率均高出1~2个百分点。 3)提出一种基于融合SCSE模块和改进时间流分支的人体行为识别网络。由于视频数据来源多样,存在背景信息和其他无关信息的干扰,本文基于上一章提出的网络模型,引入SCSE模块,赋予不同重要程度的特征信息不同的权重,抑制非关键特征对识别结果的干扰。同时,将时间流分支的2D卷积替换为性能更优的(2+1)D卷积,以更好地利用时空信息提取特征。在公开数据集UCF101上的实验结果表明,改进后的网络模型提取到的特征更完整,更关键,模型的鲁棒性更高;与其他目前主流的行为识别算法相比,改进后的网络模型的识别准确率高出P3D5个百分点,高出Two-StreamFusion1.22%,与Spationtemp.ResNet基本持平,但低于I3D-StreamFusion。