计算机研究与发展2021,Vol.58Issue(7) :1504-1517.DOI:10.7544/issn1000-1239.2021.20200112

基于粗粒度数据流架构的稀疏卷积神经网络加速

Acceleration of Sparse Convolutional Neural Network Based on Coarse-Grained Dataflow Architecture

吴欣欣 欧焱 李文明 王达 张浩 范东睿
计算机研究与发展2021,Vol.58Issue(7) :1504-1517.DOI:10.7544/issn1000-1239.2021.20200112

基于粗粒度数据流架构的稀疏卷积神经网络加速

Acceleration of Sparse Convolutional Neural Network Based on Coarse-Grained Dataflow Architecture

吴欣欣 1欧焱 1李文明 2王达 2张浩 2范东睿1
扫码查看

作者信息

  • 1. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190;中国科学院计算技术研究所 北京 100190;中国科学院大学计算机科学与技术学院 北京100049
  • 2. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190;中国科学院计算技术研究所 北京 100190
  • 折叠

摘要

卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和 1.14倍(Alexnet)、1.23倍(VGG16).

关键词

领域专用加速器/粗粒度数据流/稀疏卷积神经网络/指令映射/指令控制

引用本文复制引用

基金项目

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量6
参考文献量2
段落导航相关论文