SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架

SAF-CNN:A Sparse Acceleration Framework of Convolutional Neural Network for Embedded FPGAs

谢坤鹏 ¹仪德智 ²刘义情 ²刘航 ¹赫鑫宇 ²龚成 ³卢冶⁴

扫码查看

作者信息

1. 南开大学计算机学院天津 300350;天津市网络与数据安全技术重点实验室(南开大学) 天津 300350
2. 南开大学网络空间安全学院天津 300350;天津市网络与数据安全技术重点实验室(南开大学) 天津 300350
3. 南开大学软件学院天津 300350
4. 南开大学计算机学院天津 300350;南开大学网络空间安全学院天津 300350;天津市网络与数据安全技术重点实验室(南开大学) 天津 300350;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190
折叠

摘要

传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network,SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先,SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps.

关键词

卷积神经网络/模型压缩/计算图/加速器设计/推理框架

引用本文复制引用

基金项目

国家自然科学基金(62002175)

计算机体系结构国家重点实验室(中国科学院计算技术研究所)开放课题(CARCHB202016)

天津市企业优秀科技特派员项目(21YDTPJC00380)

中国民航大学信息安全测评中心开放基金(ISECCA-202102)

CCF-华为胡杨林基金(CCF-HuaweiTC2022005)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量1

参考文献量3

段落导航