深度神经网络轻量化研究及应用

吕恩瑶¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

深度神经网络的轻量化能够使得深度网络模型更加方便的部署到算力受限的边缘设备上，然而，深度神经网络在处理三维数据时，如何有效地进行轻量化工作仍然存在许多问题。首先，传统的三维卷积虽然能够有效提取含有时序的信息，但往往会使模型变得臃肿导致难以部署。其次，自注意力网络虽然具有能够长距离时空建模的能力，但在训练阶段需要更大的数据，并且需要更加昂贵的计算开销和更大的模型存储开销。此外，时空动作识别网络由于需要同时提取和融合空间特征和时序特征，这会导致模型也变得过于臃肿，难以部署和实时运行。故本文面向视频行为识别与检测应用，进行深度神经网络的轻量化方法的研究，取得的成果可概述为： (1)针对深度神经网络在处理三维数据时难以轻量化的问题，本文提出了一种将轻量化网络与结构重参数化相结合的方法。该方法通过在训练阶段使用多分支模块去充分提取更多的时空特征信息，并在模块设计时将多分支结构堆叠成深度可分离结构，而在推理阶段将其通过本文设计的三维卷积重参数化的方式转化成一个深度可分离卷积替代。本文的方法有效地减小了模型的大小和计算量，同时弥补了由轻量化带来的精度的损失，降低了模型的部署难度。 (2)为了解决自注意力网络在训练阶段需要更多的数据、更高的计算和模型存储开销的问题，本文设计了一种基于轻量化卷积与ViTs(VisionTransformers)相混合的模型。首先通过将ViTs模块与卷积模块交替架构，减少了直接基于自注意力机制的模型参数。此外，本文改进了ACMix模块，使其两分支结构中的自注意力计算模块的耗时Unflod操作移除，通过交错稀疏自注意力的方法来降低计算量，使模型在保持轻量级的同时又能够避免直接轻量化卷积带来的精度过度丢失。 (3)针对时空动作识别网络在融合时空特征时难以融合，使模型变得臃肿而难以部署和实时运行的问题，本文提出了一种具有实时性的时空动作检测模型YOWOv3。本文使用高效的3D骨干网络和2D骨干网络来分别提取时序信息上的空间特征和时序特征，并通过将卷积与自注意力机制深度融合从而设计得到轻量级时空特征融合模块来进一步充分融合并提取时空上的特征，对最终提取到的特征使用解耦的特征头以加快模型的收敛速度和提高模型的精度。此外进一步在上述方法的基础上，通过对时序特征提取分支在时间维度上，以移动部分通道特征的方式，从而促进相邻帧之间的信息交流，这种方法的设计不仅使最终的模型能够不受3D卷积操作的限制，还进一步提升了模型在精度与速度的平衡能力，为在更多边缘设备、更一般的情况下的部署提供了可能性。本文的成果可有效支撑深度神经网络在更广泛领域的应用，丰富了深度学习的方法与技术体系。

关键词

深度神经网络/轻量化/结构重参数化/时空动作识别

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

王映辉/石小华

学位年度

2024

学位授予单位

江南大学

语种

中文

中图分类号

段落导航