首页期刊导航|计算机工程与科学
期刊信息/Journal information
计算机工程与科学
国防科学技术大学计算机学院
计算机工程与科学

国防科学技术大学计算机学院

王志英

月刊

1007-130X

jsjgcykx@163.net

0731-84576405

410073

湖南省长沙市开福区德雅路109号国防科技大学计算机学院

计算机工程与科学/Journal Computer Engineering and ScienceCSCD北大核心CSTPCD
查看更多>>本刊系国防科技大学计算机学院主办的计算机类综合性学术刊物,属中国计算机学会会刊,已先后被列为中文核心期刊、中国科技核心期刊、中国学术期刊(光盘版)全文入编期刊、中国科学引文数据库来源期刊(CSCD核心)、中国学术期刊综合评价数据库来源期刊。
正式出版
收录年代

    NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法

    姜晶菲何源宏许金伟许诗瑶...
    1141-1150页
    查看更多>>摘要:深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一.国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间.针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM.NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响.基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化.在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM 能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速.

    深度神经网络图形处理器向量处理器稀疏矩阵乘流水线

    基于MLIR的数据流模型

    李金熹尹首一魏少军胡杨...
    1151-1157页
    查看更多>>摘要:在冯诺依曼架构下,指令集的使用让软硬件得以解耦并各自飞速发展.然而,近年来并行多核架构加速器的热潮为冯诺依曼架构下的顺序编程模型带来了挑战.在顺序编程模型下设计而成的指令集缺乏对并行硬件的抽象,因此仅仅使用指令集已不能完全完成软硬件的解耦.人工智能软件编译栈领域需要新的编程模型,以对接顺序执行的编程平台和并行多核的硬件后端,并进一步探索并行硬件提供的优化机会.使用数据流模型作为编程模型,为顺序执行程序和并行硬件指令集的对接过程提供通用抽象,在指令集的基础上进一步实现软件前端与硬件后端的解耦.为确保项目的可复用性,将数据流模型以codelet dialect的形式实现在谷歌提出的编译器框架MLIR上.MLIR致力于整合碎片化的编译器生态,提高前后端对接流程的可复用性,在MLIR上实现的数据流模型将进一步提升MLIR系统的可复用性.

    数据流模型端到端编译MLIR

    MiniBranRAP:极小化分支判断数的AMG粗网格矩阵计算并行算法

    杜皓毛润彰邓蕴桐黄思路...
    1158-1166页
    查看更多>>摘要:代数多重网格(AMG)是科学工程计算与工业仿真领域求解大规模稀疏线性代数方程组最常用的算法之一.在启动(Setup)阶段的每个网格层,AMG需要基于限制算子R、当前细网格层矩阵A和插值算子P的稀疏矩阵乘积来计算粗网格矩阵Ac=RAP,该过程是AMG并行性能的主要瓶颈.首先发现了主流AMG解法器中RAP并行算法由于分支判断的平方复杂度导致的性能瓶颈,并结合稀疏矩阵CSR的行主序特点,提出了具有线性复杂度分支判断数的RAP并行算法 MiniBranRAP.该算法集成到JXPAMG解法器中,并通过实际应用算例验证了算法的有效性.测试结果表明,对于6个来自实际应用的典型算例,相对于Hypre最新版本的BoomerAMG解法器,基于 MiniBranRAP的JXPAMG解法器在28个进程上将Setup阶段的计算效率平均加速3.3倍、最高加速9.3倍.

    代数多重网格(AMG)粗网格矩阵计算分支判断HypreJXPAMG

    面向高密度闪存的内存页大小探索

    俞丁翠罗龙飞宋云鹏李文通...
    1167-1174页
    查看更多>>摘要:近年来,固态硬盘SSD向高带宽、大容量的方向飞速发展.为了扩大SSD的容量,闪存页面从4 KB增长到了16 KB.然而,操作系统依然以4 KB内存页为粒度向SSD下发读写请求,导致应用难以充分利用SSD的高带宽.增加内存页面的大小,以使操作系统下发的I/O请求和SSD读写闪存的粒度统一是可能可行的解决方案.将首次深入探索内存页大小对系统I/O性能与SSD寿命的影响.具体来说,将内存页大小设置为16 KB,运行测试程序并将实验结果与4 KB内存页进行比较.得出以下结论:(1)16 KB内存页具有更好的读性能;(2)应用的写粒度决定了16 KB内存页的性能;(3)16 KB内存页放大了页内无效数据对SSD寿命的影响.

    固态硬盘高密度闪存内存管理内存页大小I/O性能测试分析

    一种不规则稀疏矩阵的SpMV方法

    施禹董攀张利军
    1175-1184页
    查看更多>>摘要:稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用.现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨.相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间.因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足.同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法.在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果.

    稀疏矩阵不规则矩阵向量乘法多核性能性能优化

    《计算机工程与科学》征文通知

    1184页

    基于RISC-V的超标量处理器的ROB压缩方法

    王洁付丹阳
    1185-1192页
    查看更多>>摘要:RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一.在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能.基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题.在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量.最终的仿真结果表明,此方法有效提高了处理器性能.

    RISC-V超标量处理器ROB压缩

    基于分区层次图的海量高维数据学习索引构建方法

    华悦琳周晓磊范强王芳潇...
    1193-1201页
    查看更多>>摘要:学习索引是破解海量高维数据近似最近邻搜索问题的关键.然而,现有学习索引技术结果仅局限于单个分区中,且依赖于近邻图的构建.随着数据维度和规模的增长,索引难以对分区边界数据进行精确判断,并且构建时间复杂度增大,可扩展性难以保障.针对上述问题,提出了基于分区层次图的学习索引方法PBO-HNSW.该方法对分区边界数据进行重新分配,并行构建分布式图索引结构,从而有效应对近似最近邻搜索问题所面临的挑战.实验结果表明,该方法能够在百万级海量高维数据上实现毫秒级的索引构建.当召回率为0.93时,PBO-HNSW方法构建时间仅为基线方法的36.4%.

    近似最近邻搜索学习索引层次可导航小世界图分区学习索引结构

    面向56 Gb/s高速SerDes接收机DSP设计

    胡小月王强吕方旭许超龙...
    1202-1209页
    查看更多>>摘要:高速接口芯片是高性能互连网络通信中的一款重要IP,针对56 Gb/s四脉冲幅度调制信号在高性能互连网络背板通信中,由于传输距离长信道衰减严重导致误码率高的问题,提出一种面向56 Gb/s高速Serdes接收机DSP设计.该DSP采用64路并行结构,通过16抽头前向反馈均衡器,以及1抽头预判决反馈均衡器对接收端数字化后的信号进行处理;采用基于K-均值聚类算法生成动态变化的判决电平并结合最小均方误差算法,能够处理15~35 dB不同信道衰减下的均衡问题.为了验证算法的性能,还搭建了一个基于模拟前端芯片和现场可编程门阵列的实验验证平台.实验结果表明,在信道衰减为15~35 dB@14 GHz,速率为 56 Gb/s的条件下,误码率均小于5e-10.

    K-均值算法前向反馈均衡预判决反馈均衡自适应均衡

    面向服务器无感计算的模型推理服务切换方法研究

    温鑫曾焘李春波徐子晨...
    1210-1217页
    查看更多>>摘要:模型推理服务正随着大模型技术的发展被广泛应用,为模型推理服务构建稳定可靠的体系结构支撑逐渐成为云服务商关注的焦点.服务器无感计算是一种资源粒度细、抽象程度高的云服务计算范式,具有按需计费、弹性扩展等优势,能够有效提高模型推理服务的计算效率.但是,模型推理服务工作流呈现出多阶段的特点,独立的服务器无感计算框架难以确保模型推理服务工作流各阶段的最优执行.因此,如何利用不同服务器无感计算框架的性能特征,实现模型推理服务工作流各阶段的在线切换,缩短整体工作流的执行时间,是亟待解决的关键问题.讨论模型推理服务在不同服务器无感计算框架上的切换问题.首先,使用预训练模型构建模型推理服务函数,得出异构服务器无感计算框架的性能特征;其次,采用机器学习技术构建二分类模型,结合异构服务器无感计算框架的性能特征,实现模型推理服务在线切换框架原型;最后,搭建测试平台,生成模型推理服务工作流,完成在线切换框架原型的性能评估.初步实验结果表明,在线切换框架原型与独立的服务器无感计算框架相比,最大可缩短模型推理服务工作流57%的执行时间.

    模型推理服务服务器无感计算机器学习