基于多模态数据特征融合的人体行为识别方法研究

牟洪达¹

扫码查看

作者信息

1. 重庆工商大学
折叠

摘要

近年来，随着海量视频数据的涌现和人工智能技术的迅猛发展，人体行为识别方法研究得到广泛关注。在目前的方法研究中倾向基于RGB图像的单模态方法进行人体行为识别研究，但是单模态存在特征模态单一、特征信息不足等问题，而且RGB 数据模态信息冗余且易受到遮挡光照等影响。为此选择与人体息息相关、不易受影响的骨骼节点数据模态，再结合其他数据模态进行多模态特征融合。各种数据模态都包含着许多的关键特征信息，多种数据模态融合能够有效的形成互补，亦存在提高人体行为识别精度效果的可能。针对以上问题和猜想，设计了多种数据模态和特征融合技术，本文开展了如下研究并在目前相关主流数据集上展开了测试：（1）针对基于 RGB 图像过度依赖外观和易受其他因素影响以及单模态的问题，选择骨骼节点数据模态与RGB图像模态结合，填补RGB图像的不足并提供更多动作信息。提出了基于骨骼节点和RGB图像特征融合的双通道行为识别方法。该方法采用以ResNet为基础的双通道分别提取RGB图像和骨骼节点的特征信息。为了更好的优化特征提取过程，加入了快慢网络的思想。在慢网络中使用较大的帧间距离进行数据流通，能够有效的提取信息的静态语义空间；在快网络中使用较小的帧间距离进行采样，可以优化网络提取动态的快速变化的时空信息。同时两个通道提取特征后，可以通过侧向连接进行数据聚合，最终完成行为识别任务。（2）针对单模态数据的人体行为识别方法特征表达不足，信息缺失等问题。在第一部分的基础上选择比 RGB 数据模态更轻量化，信息冗余更少的文本信息。选择由文本提供空间静态特征与骨骼数据提供的时序、动作信息结合。提出了基于骨骼节点和文本信息特征融合的行为识别方法。该方法以Transformer为基础，设计了一个端到端的文本生成网络，将RGB图像提供的信息进一步精炼压缩转化为文本信息。通过设计好的金字塔卷积把图片和文本进行融合，融合后的特征经过Swin-Transformer提取特征，从而完成行为识别分类任务。（3）在常用主流的行为识别数据集上对以上两个网络模型进行了大量实验和对比，验证了本文提出方法的有效性。与当前主流的单一数据模态的人体行为识别方法进行相比，本文多模态数据融合的方法在可视化、识别正确率上有所提升。

关键词

人体行为识别/RGB图像/骨骼节点/多模态特征融合/Swin-Transformer模型

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

唐亮贵

学位年度

2024

学位授予单位

重庆工商大学

语种

中文

中图分类号

段落导航