卷积神经网络加速器研究

张泽鲲¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

随着人工智能领域的蓬勃发展，随之而来的是超大数据量的运算需求对硬件的更新和提升提出了更大的挑战。神经网络在人工智能领域充当着十分重要的角色，也让人工智能进入了重要的发展阶段。卷积神经网路为神经网络的一种，随着目标识别，人脸识别等应用逐渐司空见惯，卷积神经网络真正进入了人们的视野。为了提高网络识别的准确度，网络变得越来越复杂，规模也愈来愈大，这随之而来的便是大幅提高计算成本以及存储需求，导致通用计算平台面临巨大的吞吐、能效挑战。至此，卷积神经网络加速器逐渐成为学术界和工业界的研究热点。然而目前的设计仍存在问题。研究者通常通过提高频率或者扩大阵列单元来提升算力，这并不是最优的加速方案，比如阵列单元个数过多会导致时序很难收敛，应该从适配算力和带宽的方面入手做整体的架构优化。针对这类问题，本文提出一种具有可配置、高并行高吞吐、高能效比的机器视觉领域的神经网络加速器。本文的主要工作如下: 针对卷积层的大数据量问题，采用数据切分的方式，将卷积操作分为若干子运算，通过输入输出通道并行的计算方式，提高计算效率;另外，利用切分后的数据在通道方向做数据复用，减少数据的重复搬运;对于数据存储，采用顺序存储的方式，不仅可以提高DMA工作效率又可以提高阵列单元工作效率;针对池化层的滑窗运算需要用到较多的移位寄存器，采用先横向池化后纵向池化的算法，使得控制简单，效率大幅提高;针对阵列单元进行了整体的优化，在阵列内部采用权重寄存器堆缓存的方式来做乒乓操作，减少数据搬运时延。经实验得出:以VGG-16为目标网络，基于FPGA在100MHz的时钟频率下，峰值算力409.6GOPS，功耗1.107W，可以达到242.75GOPS的吞吐量，219.29GOPS/W的能效比。在SMIC55nm的工艺下，时钟频率可以达到300MHz，峰值算力约1.2T，综合后的功耗为1.7W，可达到约722.SGOPS/W的能效比。

关键词

卷积神经网络/加速器/FPGA/高性能计算/数据切分/移位寄存器

引用本文复制引用

授予学位

硕士

学科专业

集成电路工程

导师

乔树山

学位年度

2021

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航