多模态零样本人体动作识别

Multimodal-based zero-shot human action recognition

吕露露 ¹黄毅 ²高君宇 ²杨小汕 ²徐常胜²

扫码查看

作者信息

1. 郑州大学,郑州 450000
2. 中国科学院自动化研究所模式识别国家重点实验室,北京 100190
折叠

摘要

目的在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多.但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少.为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion,ZSAR-MF)框架.方法本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成.具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network,CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估.结果本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4％左右.结论本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率.

关键词

零样本/多模态融合/动作识别/传感器数据/视频特征

引用本文复制引用

基金项目

出版年

2021

中国图象图形学报

中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心

影响因子：1.111

ISSN：1006-8961

被引量3

参考文献量2

段落导航