首页期刊导航|计算机工程与科学
期刊信息/Journal information
计算机工程与科学
国防科学技术大学计算机学院
计算机工程与科学

国防科学技术大学计算机学院

王志英

月刊

1007-130X

jsjgcykx@163.net

0731-84576405

410073

湖南省长沙市开福区德雅路109号国防科技大学计算机学院

计算机工程与科学/Journal Computer Engineering and ScienceCSCD北大核心CSTPCD
查看更多>>本刊系国防科技大学计算机学院主办的计算机类综合性学术刊物,属中国计算机学会会刊,已先后被列为中文核心期刊、中国科技核心期刊、中国学术期刊(光盘版)全文入编期刊、中国科学引文数据库来源期刊(CSCD核心)、中国学术期刊综合评价数据库来源期刊。
正式出版
收录年代

    基于便笺式存储器的向量化SpMV算法的性能评估与分析

    张宗茂董德尊王子聪常俊胜...
    1521-1528页
    查看更多>>摘要:便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用.稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一.在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率.为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析.在gem5模拟器中针对来自真实应用程序的2 562个稀疏矩阵进行了实验.实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11.

    稀疏矩阵向量乘便笺式存储器CSRARMSVE

    面向结构矩阵的可扩展并行矩阵乘算法框架

    李胜国廖霞于恒彪黄春...
    1529-1538页
    查看更多>>摘要:结构矩阵在科学计算和工程应用中具有重要作用,例如Cauchy、Toeplitz、Vandermonde和Hankel矩阵等.虽然这些矩阵都是稠密的,但只需要O(n)个参数(生成元)就可以表示,其中n为矩阵的维数.提出了面向结构矩阵的可扩展并行矩阵乘算法框架,利用矩阵生成元显式地构造各进程的局部矩阵块,从而减少通信开销;同时利用矩阵块的数值低秩性,进一步降低计算开销.因此,该算法框架可同时降低计算量和通信量,适用于Cannon、Fox和PUMMA等矩阵乘算法.在天河2巨型机上进行了大量的数值测试,测试结果表明,该算法可获得相对ScaLAPACK中的PDGEMM函数的8.96倍加速.

    结构矩阵矩阵乘法FFTCauchy矩阵Toeplitz矩阵分布式并行

    一种面向计算图的及时内存重用算法

    曹博钧钱入意徐远超
    1539-1546页
    查看更多>>摘要:有限的设备内存容量制约了深度神经网络模型的进一步发展,内存重用是少有的在不引入额外开销的前提下节省内存使用的方法之一.计算图中的中间张量占据着主要的内存空间,是内存重用算法的主要优化对象.现有的典型内存重用算法,包括大张量优先算法和短生命周期优先算法,仅从单一特征出发,只考虑张量之间的生命周期是否重叠,忽略了邻近张量之间的生命周期相对位置关系,计算图越复杂,对内存重用的挖掘越不够充分.针对该问题,提出一种新的内存重用算法——UMR,通过深入分析图中邻近张量的生命周期相对位置关系,并及时进行重用,从而获得了更多的内存重用机会.基于MLP-erf中的真实推理模型对算法进行评估,结果显示UMR算法的内存重用率不低于现有的主流算法,且能达到该模型内存重用的理论最优.基于相对复杂的计算图对算法进行的评估表明,与大张量优先与短生命周期优先2种算法相比,UMR算法最高节省了 21.6%和18.7%的内存占用,平均分别节省了 6.5%与13.2%的内存占用.

    计算图内存优化内存重用内存利用率

    适应于硬件部署的神经网络剪枝量化算法

    王鹏张嘉诚范毓洋
    1547-1553页
    查看更多>>摘要:深度神经网络由于性能优异已经在图像识别、目标检测等领域广泛应用,然而其包含大量参数和巨大计算量,导致在需要低延时和低功耗的移动边缘端部署时困难.针对该问题,提出一种用移位加法代替乘法运算的压缩算法,通过对神经网络进行剪枝和量化将参数压缩至低比特.该算法在乘法资源有限的情况下降低了硬件部署难度,可满足移动边缘端低延时和低功耗的要求,提高运行效率.对ImageNet数据集经典神经网络进行了实验,结果表明神经网络的参数在压缩到4 bit的情况下,其准确率与全精度神经网络的基本一致,甚至在ResNet18、ResNet50和GoogleNet网络上的Top-1/Top-5准确率还分别提升了 0.38%/0.22%,0.35%/0.21%和1.14%/0.57%.对VGG16第8层卷积层进行实验,将其部署在Zynq7035上,结果表明,压缩后的网络在使用的DSP资源减少43%的情况下缩短了 51.1%的推理时间,并且减少了 46.7%的功耗.

    深度神经网络硬件剪枝量化FPGA

    面向深度行情因子挖掘的分布式训练关键技术研究

    赵鑫博陆忠华
    1554-1565页
    查看更多>>摘要:深度行情数据是沪深交易所的新一代实时行情数据产品,是普通基础行情数据的升级版,是目前国内信息密度最高、蕴含信息量最大、挖掘最不充分的行情数据,对挖掘证券市场潜在风险具有重要价值.但是,现有研究缺少基于深度行情数据面向证券市场的风险度量和计算分析,且全市场深度行情数据规模大,用于提取信息的深度学习模型也越来越复杂,尽管当下硬件的计算能力也在一直不断地发展与提高,但仍然无法解决训练耗时长、效率低等问题.因此,基于沪深300成分股深度行情数据,利用深度学习等方法挖掘高频波动率因子,构建了基于TabNet与LightGBM的高频波动率预测模型.同时,提出了一种基于并行差分进化的分布式训练算法Parallel_DE,用于模型分布式训练过程中的参数计算,并详细阐述了其场景映射方案与整体流程设计.针对上述2项工作基于自有分布式训练平台进行充分验证,实验结果表明,高频波动率预测模型可以对已实现波动率进行高精度预测,且效果相较于其他方法具有一定优越性;Parallel_DE算法可以在一定程度保留参数多样性的同时,有效减少本地参数在测试集上的误差,从而高效率分布式地训练出性能优良的深度学习模型,为证券市场的风险识别提供了面向深度行情数据的相关技术与方法.

    深度行情已实现波动率分布式训练差分进化

    基于OpenMP的硅晶体分子动力学模拟的空间分解着色及向量化研究

    傅游韩昊孙月娇梁建国...
    1566-1575页
    查看更多>>摘要:作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战.为了解决以上问题,在OpenMP共享内存编程模型的基础上,结合硅晶体粒子特性实施了一系列面向硅晶体分子动力学应用的优化方法,以提高模拟效率:(1)在大规模线程级并行模拟过程中,利用空间分解图着色思想消除粒子之间的数据依赖,从而有效解决写冲突问题;(2)针对核心计算程序段,采用整体向量化的方式提高核心计算效率,并利用级数估计实现超越函数,以实现Tersoff多体势在多核处理器上的并行优化.实验结果表明,在X86平台上Tersoff多体势具有很好的优化潜力,空间分解图着色和向量化方法在硅晶体应用上具有可行性和可扩展性,能够有效地解决由数据交叉导致的写冲突以及计算密集型优化问题,最终加速比可达23.17.

    硅晶体分子动力学模拟空间分解着色向量化OpenMP

    基于图神经网络的OMCI模型相似性计算

    袁佳伟赵进
    1576-1586页
    查看更多>>摘要:光网络单元管理和控制接口 OMCI,是千兆无源光网络GPON系统中光线路终端OLT与光网络单元ONU之间进行互联互通的重要协议.在解决OMCI互通问题的过程中,经常需要开发人员对OMCI业务模型进行异常分析,但由于OMCI领域知识的复杂性,对于缺乏经验的开发人员直接分析OMCI业务模型是非常困难的,并且耗时耗力.因此,针对上述实际问题中的挑战,提出了 一种基于图神经网络进行OMCI模型异常分析的方法,通过图相似性计算算法,从数据库中查找相似的OMCI模型作为参考,然后比较差异性,找到异常点.首先将真实的OMCI数据构建成图数据,然后结合图同构网络与自注意力池化改进快速计算图相似性模型(SimGNN),最后计算OMCI图数据库中每个图与异常图数据的相似性得分,根据得分排名推荐出最相似的若干OMCI业务模型图.实验结果表明,改进的图相似性计算模型与基准模型相比,在OMCI数据集上性能有所提升,并且在实际应用中也是有效的,对OMCI互通问题的分析起到了一定的帮助作用.

    光网络OMCI异常分析图神经网络图相似性计算图同构网络

    一种基于多特征的日志事件异常检测方法研究

    余佳妮胡朝霞蒋从锋
    1587-1597页
    查看更多>>摘要:随着计算机系统规模增大、系统复杂性增加和用户服务质量要求提高,日志系统的重要性日益提高.日志用于记录计算机系统运行过程中产生的数据或事件,日志记录中的异常数据往往表明系统存在性能波动、异常或故障.针对现有的日志异常检测研究多采用单一特征进行异常检测,存在低效、不完备和误判率高等问题,提出基于多特征的日志事件异常检测方法.首先,定义了日志的多元特征,包括序列、定量、语义和时间特征.其次,采用BERT结合TF-IDF获取语义特征向量,并通过特征融合获取模型的输入特征.最后,建立基于注意力机制的Bi-LSTM异常检测模型.实验表明该异常检测模型在精确度上有一定提升,对于辅助发现日志异常具有一定参考作用.

    异常检测日志事件多元特征注意力机制

    基于同态加的压缩感知加密域信息隐藏算法

    李名信鑫
    1598-1605页
    查看更多>>摘要:信息隐藏可为云和物联网环境中的海量数据提供必要的安全保护,传统的加密技术虽然有效保护了图像的隐私,但是无法同时提供版权、完整性等方面的保护,因此,在加密域进行信息隐藏面临着较大的需求和挑战.提出了一种在压缩感知同态加密域进行信息隐藏的算法.首先,对压缩感知的同态性进行探索,发现对压缩感知获得的测量值进行加倍,与直接扩展原始信号后再进行压缩感知具有相同的效果.然后,利用同态加运算实现基于差分扩展的压缩感知加密域的信息隐藏.实验仿真结果表明,该算法具有较好的隐私保护性能和信息隐藏性能,并且与最新的加密域信息隐藏算法相比,具有更高的嵌入容量.

    压缩感知同态加密差分扩展信息隐藏

    基于差分隐私与模型聚类的安全联邦学习方案

    肖迪余柱阳李敏王莲...
    1606-1615页
    查看更多>>摘要:联邦学习中的模型安全以及客户隐私是亟待解决的重要挑战.为了同时应对这2大挑战,提出了 一项基于差分隐私与模型聚类的联邦学习方案,该方案兼顾模型安全与隐私保护.通过在客户更新中引入局部差分隐私扰乱客户上传的参数以保护客户的隐私数据.为保证对加噪模型更新的精准聚类,首次定义余弦梯度作为聚类指标,并根据聚类结果精准定位恶意模型.最后引入全局差分隐私以抵御潜在的后门攻击.通过理论分析得到全局噪声的噪声边界,并证明了本方案引入的噪声总量低于经典模型安全方案所引入的噪声总量.实验结果表明,本方案能够达成在精度、鲁棒以及隐私3方面的预期目标.

    联邦学习模型安全后门攻击差分隐私隐私保护