基于自注意力机制的视频行为分析

扫码查看

原文链接

国家科技期刊平台
NETL
NSTL
万方数据
维普

中文摘要：视频行为识别是智能视频分析的重要组成部分.传统人体行为识别基于人工设计特征方法涉及的环节多,具有时间开销大,算法难以整体调优的缺点.针对two-stream系列的深度卷积网络,时间网络的输入是直接以相邻两帧的光流场作为输入,其中也包含了镜头移动、背景运动等无关的运动特征的问题,在视频时序上仅通过分块取样固定长度的帧,其中有效的运动信息可能不完整或包含过多的冗余信息等问题.这篇文章提出了时空自注意力运动特征提取的方法,以RGB图像及其相邻帧的灰度图的视频帧块分别作为场景网络和运动网络的输入,采用多尺度视频划分的方式一定程度上避免了因视频过长导致采样运动信息不完整或冗余.然后在多尺度上对场景网络与运动网络通过自注意力机制融合编码,最终输出检测结果.对UCF101与HMDB51数据集的测试准确率分别为94.78％和71.47％.实验表明对于视频行为分析问题,场景与运动特征通过自注意力融合能够有效提升检测精度.

外文标题：Video Behavior Analysis Based on Self-Attention Mechanism

作者：

祝伟、吴陈

展开 >

作者单位：

江苏科技大学计算机学院镇江 212003

关键词：

深度学习视频行为分析自注意力机制特征融合

出版年：

2022

DOI：

10.3969/j.issn.1672-9722.2022.01.030

计算机与数字工程

中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD

影响因子：0.355

ISSN：1672-9722

年,卷(期)：2022.50(1)

参考文献量5