高性能卷积神经网络加速器及硬件算法协同优化

袁田¹

扫码查看

作者信息

1. 南京航空航天大学研究生院电子信息工程学院
折叠

摘要

卷积神经网络（ConvolutionalNeuralNetwork,CNN）由于其高精确度被广泛应用于图像分类和识别等应用中。然而，随着CNN逐渐加深，特征图通道数逐渐变多，其网络模型逐渐膨胀。随之带来的是其大量权重数据难以被嵌入式设计存储于片上。网络剪枝方法能够在较小的精度损失下去除影响较小的权重以压缩网络模型，然而，剪枝后的卷积神经网络中的权重排布不规则。这种不规则的模型在并行架构上的处理困难，极大的影响了其处理性能。考虑到CNN中每层的特征图尺寸不同以及权重数量不同，本文提出了一种面向硬件加速的压缩策略，将网络划分为非剪枝层（NP-layers）和剪枝层（P-layers）两个部分。NP-layers位于网络的前半部分，其输入输出特征图分辨率大而通道数少，这导致计算量大而权重数量少。P-layers位于网络的后半部分，特征图分辨率小而通道数多，这导致了计算量偏小而权重数量多。在这两种类型的层被以不同的压缩策略压缩后，NP-layers有着规则的权重分布，这样NP-layers可以有效的被并行架构加速，而P-layers中权重虽然因为剪枝而使其排布变得并不规则，但是其却大幅提升了整体模型的压缩比，并且本文分别将线性量化和渐进量化策略用于这两种类型的层中，最终以实现压缩比与处理效率之间的平衡。基于所提出的压缩模型，本文提出了一种基于并行FIR滤波器的分布式卷积处理架构用以加速NP-layers的计算，并优化了其处理过程中的数据流以提升性能。对于P-layers，本文提出了一种激活数据驱动的数据流（ADF）和并行的移位累加器以加速P-layers的计算。在所提出的压缩策略和硬件架构的基础上，本文提出了一种硬件算法协同优化（HACO）方法用以同时优化压缩策略和硬件资源，提高了整体架构的计算效率。本工作以ILSVRC2012数据集作为测试集在VGG-16上以0.44%的Top-5精度损失实现了27.5×的模型压缩压缩比。对于VGG-16的图像分类任务，本工作在XilinxVCU118开发板上实现了83.0FPS的处理性能，这比目前文献中最先进的FPGA加速器快1.8倍。

关键词

卷积神经网络/现场可编程逻辑门阵列/网络压缩/硬件加速

引用本文复制引用

授予学位

硕士

学科专业

电路与系统

导师

刘伟强

学位年度

2021

学位授予单位

南京航空航天大学

语种

中文

中图分类号

段落导航