首页期刊导航|计算机科学
期刊信息/Journal information
计算机科学
计算机科学

朱完元

月刊

1002-137X

jsjkx12@163.com

023-63500828

401121

重庆市渝北区洪湖西路18号

计算机科学/Journal Computer ScienceCSCD北大核心CSTPCD
查看更多>>本刊的读者对象是:大专院校师生,从事计算机科学与技术领域的科研、生产人员。办刊宗旨是:坚持“双百”方针,活跃计算机科学与技术领域的学术气氛,重点报导国内外计算机科学与技术的发展动态,为我国的计算机科学与技术立于世界之林、达到国际先进水平奋斗而矢志不渝。
正式出版
收录年代

    高性能计算检查点技术发展与应用综述

    闫晓婷王小宁董盛赵一宁...
    1-14页
    查看更多>>摘要:随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一.检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复.文中针对高性能计算检查点技术的发展和应用情况展开综述.首先,整理了高性能计算领域中检查点技术的发展;其次,根据运行层次的不同,分别阐述了系统层检查点和应用层检查点的工作,包括主流的工具软件、可用的检查点技术、使用的应用场景等;然后,讨论了检查点技术在并行计算的容错与弹性、HPC的调度与迁移、FPGA的调试、深度学习中的容错与忠实重放这4个方面的应用;最后,对检查点技术在高性能计算领域的下一步研究方向进行了展望.

    检查点高性能计算容错调度作业迁移

    基于混合精度的分布式GMRES算法优化

    郭帅哲高建花计卫星
    15-22页
    查看更多>>摘要:广义最小残差法(Generalized Minimum Residual,GMRES)是一种求解稀疏线性系统的迭代方法,被广泛应用于科学与工程计算等领域.数据量的爆炸式增长,使得GMRES算法求解的问题规模快速膨胀.为了支持大规模问题的求解,研究人员提出了面向集群的分布式GMRES算法.然而在现有的大多数集群中,节点间的网络性能仍与节点内的GPU高速互联网络存在较大差距,限制了分布式GMRES算法的性能.针对GPU集群上的分布式GMRES算法,提出了一种基于混合精度的加速求解方法,使用低精度浮点表示,显著降低了通信过程的时间开销.此外,提出了一种数据传输的精度调控算法,动态自适应调整传输数据的精度,以保证迭代算法最佳的求解效果.实验结果表明,所提基于混合精度的优化方法可实现平均2.4倍的加速比,结合其他优化方法后可实现平均7.6倍的加速比.

    广义最小残差法混合精度GPU集群分布式系统

    基于机器学习原子势函数的原子动力学蒙特卡洛程序TensorKMC的优化

    刘人僪陈欣商红慧张云泉...
    23-30页
    查看更多>>摘要:核反应堆压力容器是核电站中最重要的部件之一,在使用过程中通常会受到辐照损伤,这极大影响了其使用寿命,给核电站的安全带来隐患.原子动力学蒙特卡洛方法(AKMC)是研究材料辐照损伤的有效理论方法,可以与计算机数值模拟进行结合来研究压力容器的微结构演变.辐照损伤的材料存在缺陷,原子间相互作用建模时需要考虑非球对称相互作用,但TensorKMC在计算时并没有考虑到原子的角向作用.文中针对该问题,提出了一种包含角向相互作用、可以与TensorKMC的三重编码完美结合的指纹建模方法,并可利用多重度对角向指纹的计算过程进行化简.文中在TensorKMC程序中实现了该方法,测试结果显示角向指纹对势函数的精度有显著影响,最大角动量越高,势函数越精准,程序的模拟耗时也会显著增加.同时,也针对TensorKMC的原子势函数的激活函数开展了测试,结果表明梯度光滑的Softplus和SquarePlus相比初版Ten-sorKMC 所用的ReLU在拟合高维势能面时有明显的优势,在最大角动量较低时ReLU有性能优势,但随着最大角动量的增大,不同激活函数对总体模拟时间几乎无特别影响.因此,在实际研究中推荐使用梯度光滑的激活函数.

    动力学蒙特卡洛原子指纹神经网络势

    基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究

    林拥真徐传福邱昊中汪青松...
    31-39页
    查看更多>>摘要:DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算.由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡.针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了 GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化.在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性.

    DSMC/PIC耦合粒子模拟异构并行MPI+CUDA

    基于CRIU的高性能计算容器检查点技术研究

    陈轶阳王小宁闫晓婷李冠龙...
    40-50页
    查看更多>>摘要:容错一直是高性能计算领域的热点和难点问题.检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复.容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常.因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现.文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了 Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能.期望本工作能为后续实现高性能计算任务迁移提供有效的支撑.

    容器检查点高性能计算热迁移容错

    基于鲲鹏处理器的LU并行分解优化算法

    徐鹤周涛李鹏秦芳芳...
    51-58页
    查看更多>>摘要:ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的 MIMD(Multiple Instruc-tion,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发.然而在进行LU分解过程中,ScaLA-PACK库中的例程并不是通信最优的,没有充分利用当前的并行架构.针对上述问题,提出一种基于鲲鹏处理器的LU并行分解优化算法(Parallel LU Factorization,PLF),实现了负载均衡,适配国产鲲鹏环境.PLF对不同进程的不同分区的数据进行差异化处理,并将每个进程所拥有的部分数据分配给根进程进行计算,之后再由根进程散播回各个子进程,这有利于充分利用CPU资源,实现负载均衡.在单节点Intel 9320R处理器以及鲲鹏(Kunpeng)920处理器环境中进行测试,其中,Intel平台下使用Intel MKL(Math Kernel Library),Kunpeng平台下使用PLF算法.对比两个平台关于不同规模的方程组求解的性能发现,Kunpeng平台的求解性能有显著优势.在NUMA数进程和单线程的情况下,优化后的计算效率在小规模平均达到4.35%,相比Intel的1.38%提升了 215%;中规模平均达到4.24%,相比Intel平台的1.86%提升了 118%;大规模平均达到4.24%,相比Intel 的 1.99%提升了 113%.

    ScaLAPACKLU分解并行计算MKL

    基于训练集聚类选择优化的CPU功耗建模精度提升方法

    李泽锴钟佳卿冯绍骏陈娟...
    59-70页
    查看更多>>摘要:建立高精度、低开销的CPU功耗模型对于计算机系统的功耗管理与功耗优化至关重要.一般认为训练集规模越大,CPU功耗模型精度越高.但有研究发现增大训练集规模不一定会提高功耗建模精度,有时甚至会导致精度下降,因此,如何选择功耗模型训练集以保证CPU功耗模型精度达到要求具有重要意义.文中提出一种基于聚类的训练集选择优化算法来解决上述问题,在有效保证CPU功耗建模精度的同时降低了 CPU功耗建模的开销.该算法首先通过主成分分析将基于PMC的程序特征转换为p维向量特征空间,然后根据找到的最优聚类数按照程序特征对程序进行聚类,从每个聚类簇中选出代表程序;最后根据"单聚类簇内代表性最强原则"与"多聚类簇间代表程序数最少原则"形成最优训练集,模型精度相比Baseline精度有明显提高.在x86和ARM两类处理器平台上分别采用线性功耗建模和神经网络功耗建模两种方式,对算法进行了实验评估,实验结果表明所提算法的功耗建模精度有效显著提升.

    CP功耗建模训练集选择主成分分析K-means聚类

    填充性载荷:减少集群资源浪费与深度学习训练成本的负载

    杜昱俞子舒彭晓晖徐志伟...
    71-79页
    查看更多>>摘要:近年来,大模型在生物信息学、自然语言处理和计算机视觉等多个领域取得了显著成功.然而,这些模型在训练和推理阶段需要大量的计算资源,导致计算成本高昂.同时,计算集群中存在资源利用率低、任务调度难的供需失衡问题.为了解决这一问题,提出了填充性载荷的概念,即一种在计算集群中利用空闲资源进行计算的负载.填充性载荷的计算资源随时可能被其他负载抢占,但其使用的资源优先级较低,资源成本也相对较低.为此,设计了适用于填充性载荷的分布式深度学习训练框架PaddingTorch.基于阿里巴巴PAI集群的数据,使用4块GPU模拟了任务切换最频繁的4个GPU时间段上的作业调度情况,使用PaddingTorch将蛋白质复合物预测程序作为填充性载荷进行训练.训练时长为独占资源时训练时长的2.8倍,但训练成本降低了 84%,在填充性载荷填充时间段内GPU资源利用率提升了 25.8%.

    深度学习分布式训练资源利用率计算集群编程框架

    基于矩阵乘积态的有限纠缠量子傅里叶变换模拟

    刘晓楠廉德萌杜帅岐刘正煜...
    80-86页
    查看更多>>摘要:与经典计算不同,在量子计算中量子比特可以处于叠加态,多个量子比特之间还可以形成纠缠态.表示n个量子比特组成的量子态需要存储2n个振幅,这种指数级的存储开销使得大规模的量子模拟难以进行.然而当量子态的纠缠程度有限时,使用矩阵乘积态表示量子态仅需要线性的空间复杂度,可以扩大模拟的规模.使用HIP-Clang语言,基于CPU+DCU的异构编程模型,使用矩阵乘积态表示量子态,对量子傅里叶变换进行模拟.结合矩阵乘积态的特点,对量子傅里叶变换线路进行分析,减少模拟实现时不必要的张量缩并运算与正交化构建.对模拟过程中的张量缩并进行分析,使用TTGT算法完成张量缩并运算,同时利用DCU的并行处理能力来提高效率.对模拟结果进行分析,分别通过振幅误差与半经典Draper量子加法器的结果验证了模拟的正确性.对模拟规模进行分析,当量子态的纠缠熵最大时,使用16 GB的内存空间最多只能模拟2 4位的量子态,而当量子态内部纠缠程度较低时,可以对上百位的量子态进行量子傅里叶变换模拟.

    量子模拟量子傅里叶变换矩阵乘积态异构计算DCUHIP-Clang

    基于领域分析的结构线性静力软件串并行一致化方法

    唐德泓杨浩文龙飞徐正秋...
    87-95页
    查看更多>>摘要:并行CAE软件的计算结果串并行一致性是其计算结果可信的必要条件.然而,软件研发时常引入串并行不一致缺陷,其形式众多,现象相互耦合,散布于海量代码中,成为实现CAE软件串并行一致性的挑战.文中以结构线性静力软件的串并行一致性需求为切入点,针对现有的"专家知识法"与"缺陷定位法"应用于CAE软件串并行一致化时存在的粒度粗、准度差、成本高和缺乏系统性问题,引入领域分析方法,并与专家知识和数据流状态比对结合,提出了一种适用于结构线性静力的串并行一致化方法,实现了结构线性静力软件串并行不一致缺陷的细粒度、高准度与低成本系统性识别与修复.基于前述方法形成相关工具,并将方法与工具应用于SSTA的串并行一致化,识别并修复其中8处串并行不一致缺陷,使其通过90余真实模型的串并行一致考核,并实现串并行结果严格一致;同时,该方法与工具还将串并行不一致缺陷定位耗时由平均大于两人天降低至数人时.

    串并行一致化结构线性静力软件串行代码并行化领域分析缺陷定位