计算机研究与发展2021,Vol.58Issue(3) :445-457.DOI:10.7544/issn1000-1239.2021.20180601

基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究

Research on Optimal Performance of Sparse Matrix-Vector Multiplication and Convoulution Using the Probability-Process-Ram Model

谢震 谭光明 孙凝晖
计算机研究与发展2021,Vol.58Issue(3) :445-457.DOI:10.7544/issn1000-1239.2021.20180601

基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究

Research on Optimal Performance of Sparse Matrix-Vector Multiplication and Convoulution Using the Probability-Process-Ram Model

谢震 1谭光明 2孙凝晖2
扫码查看

作者信息

  • 1. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院计算技术研究所 北京100190;中国科学院大学计算机与控制学院 北京100049
  • 2. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院计算技术研究所 北京100190
  • 折叠

摘要

稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.

关键词

性能模型/反馈优化/稀疏矩阵向量乘/卷积/cache模拟器

引用本文复制引用

基金项目

国家重点研发项目(2018YFB0204400)

中国科学院战略性先导科技专项(XDC05010100)

%%(XDC05010100)

%%(62032023)

%%(61972377)

%%(61702483)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量3
参考文献量1
段落导航相关论文