基于时域注意力机制的动作实例定位方法研究

王凯旋¹

扫码查看

作者信息

1. 西安理工大学
折叠

摘要

随着计算机视觉技术和人工智能技术的发展，基于视频的动作定位技术在智能安防、人机交互和虚拟现实等领域发挥着越来越重要的作用。由于动作和背景界线不明显和复杂背景等挑战性问题的存在，对实际的未分割视频的动作定位性能还需要进一步提高，因此研究对实际视频的高效动作定位方法有着重要的学术价值和实际的工程意义。针对现有的时序动作定位方法定位精度不高的问题，本文提出一种基于时域注意力机制的动作实例定位网络(ActionInstanceLocalizationNetworkwithTemporalAttentionMechanism，AILTAM-Net)。为了提升时序动作特征的区分性和描述力，本文一方面利用时域金字塔结构提取不同尺度特征，另一方面对提取的各尺度特征使用时域注意力机制；为了充分利用不同尺度特征对动作的预测结果，本文采用层级推进的方式对不同层的损失函数进行融合以产生更精确的提议段。具体的步骤为：把I3D作为基干网络提取视频片段的多尺度特征；把多尺度特征进行级联融合后送入注意力机制提取时序显著性特征；在各个尺度上进行帧级动作类别判定和位置回归：对各尺度的类别损失和回归损失进行级联融合生成网络损失函数：对预测结果采用NMS算法消除低质量和高重叠时序动作提议段得到定位的动作。为了验证本文方法的有效性，本文在公开的时序定位数据集Thumos14和ActivityNet1.3上进行了实验验证。实验结果表明，本文的方法在Thumos14数据集上mAP@0.5的数值是51.9%，相对经典的时序定位方法BMN、I2Net、POLO、P-GCN、CSA，本文方法的mAP@0.5性能分别提高了15.0%、2.1%、4.3%、2.8%、2.7%；在ActivityNet1.3数据集上[0.5∶0.05∶0.95]阈值下平均mAP达到了32.2%，相对经典的时序定位方法BUMR、AGCN、A2NET、DBS、P-GCN，本文方法的平均mAP分别提高了2.1%、1.8%、4.4%、6.1%、1.1%。消融实验也验证了各模块的有效性。实验结果证明本文提出的时域注意力机制的动作实例定位网络有较高的时序动作定位精度。结合本文提出的动作定位算法，开发了一套机场车站打架斗殴动作检测系统，主要由交互模块、动作定位检测模块和预警模块组成。系统通过摄像头获取视频流，通过本文的网络获取定位结果，并在交互界面上显示检测信息，如发生打架斗殴事件通过预警模块及时通知管理人员。

关键词

事件检测/深度学习/动作实例定位/注意力机制/损失函数

引用本文复制引用

授予学位

硕士

学科专业

轻工技术与工程

导师

赵凡/曲国福

学位年度

2022

学位授予单位

西安理工大学

语种

中文

中图分类号

段落导航