首页|用于骨架行为识别的多维特征嵌合注意力机制

用于骨架行为识别的多维特征嵌合注意力机制

扫码查看
目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要.尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升.基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA).方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息.对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符.特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息.结果 实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2 FA与其基线方法2 s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果.在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%.同时,消融实验验证了多维特征嵌合机制的有效性.实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果.结论 通过与基线方法2 s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确.
M2 FA: multi-dimensional feature fusion attention mechanism for skeleton-based action recognition

姜权晏、吴小俊、徐天阳

展开 >

江南大学人工智能与计算机学院,无锡 214122

行为识别 骨架信息 图卷积网络(GCN) 注意力机制 时空交互 通道依赖性 多维特征嵌合

国家重点研发计划国家自然科学基金国家自然科学基金国家自然科学基金教育部111项目

2017YFC160180061672265U183621862020106012B12018

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(8)
  • 1
  • 3