摘要
目前我国正大力推动研制国产超级计算机,其中曙光E级原型机是"十三五"计划中三台E级原型机系统之一,对我国研制E级超级计算机有重要意义.该原型机采用了异构计算架构,CPU选用了AMD授权的国产海光x86处理器Hygon7185(架构代号"Dhyana"),加速器选用了Hygon DCU(Deep Computing Unit),整个系统的实测LINPACK为3.2PFLOPS.鉴于目前公开资料有限,首先采用了基准测试程序对Hygon7185的架构性能指标做了测量和评估.为探究高性能计算应用在该原型机上的真实性能,在原型机的海光CPU和DCU上移植了国际著名的大规模应用Gyrokinetic Toroidal Code at Princeton(GTC-P),对比了GTC-P在海光平台与Intel6148CPU和NVIDIA V100GPU上的性能,并在原型机的多个节点上进行了扩展性分析.我们发现:1)原型机采用的CPU与Intel主流平台相比,向量化宽度和L3缓存均低于Intel6148,导致密集计算与不规则访存的实现性能受限;2)原型机所采用的DCU加速器通过支持ROCm HIP并行编程模型,顺利移植CUDA代码,达到了良好的可移植性,GTC-P整体性能达到了NVIDIA V100的61%,经过性能分析,差距主要源自HIP编程模型尚未支持的纹理内存使用.本研究成功揭示了曙光E级原型机的性能数据,可用于构建性能模型,指导后续在曙光E级原型机上的应用移植和优化.