首页|类别敏感的全局时序关联视频动作检测

类别敏感的全局时序关联视频动作检测

扫码查看
目的 视频动作检测是视频理解领域的重要问题,该任务旨在定位视频中动作片段的起止时刻并预测动作类别.动作检测的关键环节包括动作模式的识别和视频内部时序关联的建立.目前主流方法往往试图设计一种普适的检测算法以定位所有类别的动作,忽略了不同类别间动作模式的巨大差异,限制了检测精度.此外,视频内部时序关联的建立对于检测精度至关重要,图卷积常用于全局时序建模,但其计算量较大.针对当前方法的不足,本文提出动作片段的逐类检测方法,并借助门控循环单元以较低的计算代价有效建立了视频内部的全局时序关联.方法 动作模式识别方面,首先对视频动作进行粗略分类,然后借助多分支的逐类检测机制对每类动作进行针对性检测,通过识别视频局部特征的边界模式来定位动作边界,通过识别动作模式来评估锚框包含完整动作的概率;时序建模方面,构建了一个简洁有效的时序关联模块,利用门控循环单元建立了当前时刻与过去、未来时刻间的全局时序关联.上述创新点整合为类别敏感的全局时序关联视频动作检测方法.结果 为验证本文方法的有效性,使用多种视频特征在两个公开数据集上进行实验,并与其他先进方法进行比较.在ActivityNet-1.3数据集中,该方法在双流特征下的平均mAP(mean average precision)达到35.58%,优于其他现有方法;在THUMOS-14数据集中,该方法在多种特征下的指标均取得了最佳性能.实验结果表明,类别敏感的逐类检测思路和借助门控循环单元的时序建模方法有效提升了视频动作检测精度.此外,提出的时序关联模块计算量低于使用图卷积建模的其他主流模型,且具备一定的泛化能力.结论 提出了类别敏感的全局时序关联视频动作检测模型,实现了更为细化的逐类动作检测,同时借助门控循环单元设计了时序关联模块,提升了视频动作检测的精度.
Class-aware network with global temporal relations for video action detection

王东祺、赵旭

展开 >

上海交通大学自动化系,上海 200240

视频动作理解 视频动作提名 视频动作检测 卷积神经网络(CNN) 门控循环单元(GRU)

国家自然科学基金国家自然科学基金系统控制与信息处理教育部重点实验室项目上海工业智能管控工程技术研究中心项目

6217615661673269

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(12)
  • 2
  • 1