基于时空信息交互的夜间人体动作识别方法研究与实现

李丹¹

扫码查看

作者信息

1. 西安科技大学
折叠

摘要

随着计算机视觉领域的迅猛发展，深度学习技术已经在图像处理、目标识别等任务中取得了成就。然而，研究正逐渐转向视频，因为生活和工作环境中随处可见监控摄像头，如果仅靠人工监控，每时每刻产生的大量监控视频将耗费大量人力、财力和物力。人体动作识别任务也成为了监控视频下的一个重要任务，人体动作识别任务的场景通常是在良好的视觉条件下进行的，而在夜间视觉场景下研究较少。因此，本文针对现有的夜间人体动作识别算法准确率低的问题，对相关技术进行了研究与应用。本课题完成的主要工作与创新如下： (1)针对传统图像增强算法中参数固定而导致增强后的图像各个区域无法得到有效提升，且基于深度学习的图像增强算法太过于依赖于配对训练的数据集等问题，本文提出了一种基于MDIFE-Net曲线估计的夜间图像增强算法。首先，基于灰度变换方法设计了一种光照估计曲线，通过光照估计曲线对图像进行像素级的调整，将夜间低光图像域映射到增强图像域，有效消除光照不足所带来的影响；其次，提出了基于Mish函数的深度光照特征提取网络（Mish Deep Illumination Feature Extraction Network，MDIFE-Net）提取图像特征，去掉了无参考深度曲线估计网络模型所有的下采样层和批处理归一化层，防止其破坏相邻像素之间的关系，用更加平滑的Mish激活函数代替了Relu激活函数，从而可以使参数更好地进行更新：最后，设计了一种联合多项损失的光照估计损失函数来驱动夜间图像增强算法，解决了成对数据集难以构建的问题。实验结果表明，本文算法在夜间ARID数据集上的NIQE和STD指标结果分别达到了12.283和67.472，相较的清晰度和对比度，为后续人体动作识别提供了良好的的基础。 (2)针对深度学习领域中，人体动作识别算法对时间信息、空间信息以及背景信息总是进行同等处理，而造成人体动作识别算法精度不高的问题，本文提出了一种基于时空信息交互的人体动作识别算法。首先，提出了一个双路径网络以不同的刷新率分别学习空间和时间信息，包括一个在低帧率下运行以捕获空间语义信息的稀疏路径，以及一个并行的在高帧率下运行以捕获时序运动信息的密集路径；其次，为了从视频中提取更具有区分性的特征，提出了交叉双注意力交互模型将注意力集中在视频片段的重点区域，并在两条路径之间明确的交换时空信息。实验结果表明，本文算法在UCF101数据集和HMDB51数据集上的准确率分别达到了97.6%和78.4%，相较于新颖的Slowfast算法分别提升了1.8%和1.4%，取得了更高的准确率。结合基于MDIFE-Net曲线估计的夜间图像增强算法在夜间ARID数据集上的准确率达到了83.2%，比图像增强前的动作识别准确率提升了22.9%，能够有效的识别夜间人体动作，具有良好的实战意义。 (3)本文将所提出的夜间图像增强模型与人体动作识别模型进行实际应用。通过系统的需求分析，设计并实现了一套基于B/S架构的夜间人体动作识别系统，并对结果进行了可视化的展示，最后对该系统进行了功能测试，得到了能够满足用户需求的夜间人体动作识别系统。综上所述，本文的工作主要从夜间图像增强和人体动作识别两个方向展开研究，针对夜间人体动作识别算法准确率低的问题，在夜间图像增强算法和人体动作识别算法上进行了改进和优化，搭建了相应的网络结构，通过实验进行了验证，达到了预期的研究目标，并将所提出的算法落地实用，搭建了一套基于B/S架构的夜间人体动作识别系统。

关键词

夜间视觉场景/人体动作识别/时空信息交互/图像增强/光照曲线估计/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

张婧/钟玉芳

学位年度

2023

学位授予单位

西安科技大学

语种

中文

中图分类号

段落导航