基于动态时序移位的视频特征学习方法

Video Feature Learning Method Based on Dynamic Temporal Shift

谈伟峰 ¹程春玲 ¹毛毅¹

扫码查看

作者信息

1. 南京邮电大学计算机学院、软件学院、网络空间安全学院,江苏南京 210023
折叠

摘要

视频动作识别旨在分类不同视频片段中的动作,而一个视频片段中的动作连续存在于整个时间维度,因此对连续动作所包含的时序特征进行学习是视频动作识别任务中的一个重要方向.现有方法主要通过更多的卷积操作学习时序特征,获取视频动作时序信息的同时增加了模型的复杂度和计算量;而时序移位操作则通过沿时间维度对通道特征进行移位实现时序信息的建模,减少了计算量,但只考虑了低层次通道的时序特征学习,缺乏通道选择的依据,且忽略了时序移位对整个时空特征结构的影响.为此,提出基于动态时序移位(Dynamic Temporal Shift,DTS)的视频特征学习方法.首先,利用双层全连接神经网络学习不同层次通道上多个时间维度特征间的相关性,获得整个通道的注意力分布,并固定双层全连接神经网络的参数用于保存全局特征信息.然后,设计DTS模块,依据通道的注意力分布动态选择通道进行移位.此外,为消除时间维度上特征的移位对全局时空特征结构的影响,利用全局信息进一步学习全局时空特征(Global Spatiotemporal Feature).在UCF101和Something-something v2公开数据集上取得较好的识别效果,验证了方法的有效性.

关键词

视频动作识别/全连接神经网络/时序特征学习/动态时序移位/全局时空特征学习

引用本文复制引用

基金项目

国家自然科学基金青年基金(62002174)

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量3

段落导航