摘要
视频分类,尤其是群体活动视频分类,在安防监控、智能视频理解和体育视频分析等领域有广泛的实际应用,吸引了研究者们的极大关注。群体活动视频涉及到多个个体行为,对该类视频分析的目的是通过捕捉视频中个体的时空特征变化及个体间的互动,推理出整个群体活动的类别。本论文从构建群体活动中存在的不平衡交互关系和学习群体活动特征表示两个角度出发,构建并推理出群体活动视频中个体的多样化时空交互,并学习出群体活动的多层次交互。本文的主要研究工作包括: (1)提出了一种基于图卷积神经网络的时空交互图(Spatio-TemporalInteractiveGraph,STIG)方法,它可以自适应地探索个体间多样的交互关系。首先根据个体的语义特征和空间位置信息构建多视角的关系交互图,包括语义交互图和位置交互图;然后通过关系融合模块(Relation-FusionBlock,RFB)聚合位置交互图和语义交互图,并将融合后的交互图扩展到时域空间,构建出群体活动的时空交互图;最后通过图卷积层推理出群体活动的多样性交互,并对个体行为和群体活动进行分类。在两个有挑战的公开数据集上的定量和定性实验结果表示,本章提出的方法可以获得更高的分类准确率。 (2)提出了一种基于图卷积神经网络和图池化的群体活动视频层次化交互图(HierarchicalInteractiveGraph,HIG)模型,该模型可以将群体活动划分为多个层次,自适应地构建多粒度的关系交互图,用较少的参数以端到端的方式学习群体活动的层级特征。首先,根据个体的位置关系和语义特征建立个体关系的时空交互图。然后,在考虑节点特征和图拓扑结构的情况下,利用图卷积神经网络计算交互个体的注意力分数,将注意力分数高的个体看作是群体中的关键个体,通过保留关键节点,形成更高层次的时空交互图。最后,将多层次交互图读出层的输出进行线性融合,以获得群体活动视频的多级特征表示。在两个公开数据集上的实验结果说明了提出方法的有效性。