电子学报2024,Vol.52Issue(1) :244-257.DOI:10.12263/DZXB.20211641

面向现代GPU的Winograd卷积加速研究

Research on Winograd Convolution Acceleration for Modern GPU

童敢 黄立波 吕雅帅
电子学报2024,Vol.52Issue(1) :244-257.DOI:10.12263/DZXB.20211641

面向现代GPU的Winograd卷积加速研究

Research on Winograd Convolution Acceleration for Modern GPU

童敢 1黄立波 1吕雅帅2
扫码查看

作者信息

  • 1. 国防科技大学计算机学院,湖南长沙 410073
  • 2. 华为技术有限公司,北京 100031
  • 折叠

摘要

卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出.Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法.然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用Tensor Core进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法PKF(Partial Kernel Fusion).基于张量虚拟机(Tensor Virtual Machine,TVM)和代码重构器PKF-Reconstruc‑tor(Partial Kernel Fusion Reconstructor),实现了高性能的Winograd卷积.对真实应用中卷积神经网络的卷积算子的评估表明,与cuDNN相比,本文所提算法实现了7.58~13.69倍的性能提升.

关键词

Winograd卷积/低精度/部分计算核融合/卷积加速/GPU内存层级/Tensor/Core

Key words

Winograd convolution/low precision/partial kernel fusion/accelerating convolution/GPU memory hierarchy/Tensor Core

引用本文复制引用

基金项目

国家自然科学基金(61872374)

出版年

2024
电子学报
中国电子学会

电子学报

CSTPCDCSCD北大核心
影响因子:1.237
ISSN:0372-2112
参考文献量29
段落导航相关论文