基于混合注意力机制的视频人体动作识别

Video Human Action Recognition Based on Hybrid Attention Mechanism

朱联祥 ¹牛文煜 ¹仝文东 ¹邵浩杰¹

扫码查看

作者信息

1. 西安石油大学计算机学院,陕西西安 710065
折叠

摘要

C3D作为一种典型的三维卷积神经网络被应用于视频动作识别任务.针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的C3D三维卷积网络模型.在原C3D网络插入由GCNet通道注意力模块和3D-Crisscross空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能.将所提方法在UCF-101 和HMDB-51 两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对更高的准确率,在UCF-101 和HMDB-51 数据集上的识别准确率可以达到96.7%和63.3%,而且与原C3D方法相比在效果上有明显提升.

关键词

人体动作识别/三维卷积神经网络/全局上下文建模/远程依赖/注意力机制

Key words

human action recognition/three-dimensional convolutional neural network/global context modeling/long-range dependence/attention mechanism

引用本文复制引用

基金项目

移动通信教育部工程研究中心开放研究项目(cquptmct-202006)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量5

段落导航