浙江大学学报(工学版)2024,Vol.58Issue(1) :78-86.DOI:10.3785/j.issn.1008-973X.2024.01.009

大点数FFT在"申威26010"上的并行优化

Parallel optimization of large-point FFT on Sunway 26010

郭俊 刘鹏 杨昕遥 张鲁飞 吴东
浙江大学学报(工学版)2024,Vol.58Issue(1) :78-86.DOI:10.3785/j.issn.1008-973X.2024.01.009

大点数FFT在"申威26010"上的并行优化

Parallel optimization of large-point FFT on Sunway 26010

郭俊 1刘鹏 2杨昕遥 3张鲁飞 4吴东4
扫码查看

作者信息

  • 1. 湖州职业技术学院信息工程与物联网学院,浙江湖州 313000;湖州职业技术学院湖州市物联网智能系统集成技术重点实验室,浙江湖州 313000
  • 2. 浙江大学信息与电子工程学院,浙江杭州 310027
  • 3. 蚂蚁科技集团股份有限公司,浙江杭州 310013
  • 4. 数学工程与先进计算国家重点实验室,江苏无锡 214125
  • 折叠

摘要

根据"神威·太湖之光"超级计算机所用国产"申威26010"处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为了解决矩阵"列FFT"的读写、转置和计算问题,提出"列均分-行连续"的读写策略,通过对数据进行合理的分配、重排、交换,结合SIMD向量化、旋转因子优化、双缓冲、寄存器通信、跨步传输等优化手段,充分利用了众核处理器的计算资源和传输带宽.实验结果显示,单核组64从核并行程序较主核运行FFTW库,可以达到最高65x、平均48x以上的加速比.

关键词

神威·太湖之光/申威26010/快速傅里叶变换/Cooley-Tukey算法/众核并行

Key words

Sunway Taihu Light/Sunway 26010/fast Fourier transform/Cooley-Tukey algorithm/many-core parallelism

引用本文复制引用

基金项目

数学工程与先进计算国家重点实验室开放基金(2019A10)

出版年

2024
浙江大学学报(工学版)
浙江大学

浙江大学学报(工学版)

CSTPCDCSCD北大核心
影响因子:0.625
ISSN:1008-973X
浏览量1
参考文献量23
段落导航相关论文