基于特征金字塔卷积神经网络的时序行为识别

何嘉宇¹

扫码查看

作者信息

1. 国防科技大学
折叠

摘要

对一段视频中的人类行为进行检测分类是目前计算机视觉领域研究的重要内容，且该任务具有较大实用意义，同时面临更多困难和挑战，不仅要应对视频中行为持续时间长短不一的情况，还要处理复杂的视频背景信息，需要广大的学者在该任务上贡献更多的力量。时序行为识别的任务的目标是检测一段完整视频中的人类行为片段，并对行为片段同时进行分类和回归，确定行为片段中人类行为的类别和行为的起止时间位置。任务的难点在于一段视频中往往包含不同时间长度的行为片段，这些片段持续时间差别跨度较大，而对持续时间较短的行为片段进行检测是尤其困难的，因为很难平衡分类和回归任务对特征的不同需求。本文提出了一个新的基于三维特征金字塔特征提取网络的两阶段检测模型FPC3D，以增强模型检测不同持续时长特别是持续时间较短的行为片段的能力。文中的模型分为单独特征输入和混合特征输入两种，单支FPC3D网络以RGB连续帧作为输入，经过特征金字塔特征提取网络产生不同分辨率和抽象程度的特征图，这些不同级别的特征图在网络的后两个阶段发挥作用。第一，在提案阶段结合锚方法，使得不同时间长度的锚段具有与之对应的不同大小的感受野，锚段在不同特征图上进行的初次预测更加准确。第二，是在感兴趣区域池化阶段，不同的提案片段映射给对应级别特征图进行预测，复用多级特征图同时再一次增强了特征利用的针对性，平衡了分类和回归对特征图抽象度和分辨率的需求。双支的FPC3D网络则同时以RGB帧和光流帧作为输入，通过两个独立的特征金字塔特征提取网络分别提取RGB特征和光流特征，在网络的后两个阶段分别预测并进行特征晚融合。我们设计的网络可以进行端到端的训练，并通过整体优化的方法提升网络的预测准确率。文章展示了在最广泛使用的公开数据集THUMOS’14上对模型进行了训练和测试的结果，并与目前的典型方法进行比较，文中的模型测试准确率超过了大部分现有方法；通过对不同行为的检测准确率进行比较，验证了网络对于持续时间较短的行为片段检测准确率的提升；文章中还通过消融性实验探究了多级特征图在网络的不同部分所发挥的作用。文中提出的模型具有广泛的适用性，经过训练后能对任意短视频进行行为检测。最后，论文对未来网络的方法改进和优化提出了一些新的想法，将在接下来的工作中完成。

关键词

计算机视觉/时序行为识别/特征金字塔/深度学习/视频分析

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

李国辉

学位年度

2020

学位授予单位

国防科技大学

语种

中文

中图分类号

段落导航