首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    前言

    李华伟哈亚军姚海龙
    1349-1350页

    机器学习辅助微架构功耗建模和设计空间探索综述

    翟建旺凌梓超白晨赵康...
    1351-1369页
    查看更多>>摘要:微架构设计是处理器开发的关键阶段,处在整个设计流程的上游,直接影响性能、功耗、成本等核心设计指标.在过去的数十年中,新的微架构设计方案,结合半导体制造工艺的进步,使得新一代处理器能够实现更高的性能和更低的功耗、成本.然而,随着集成电路发展至"后摩尔时代",半导体工艺演进所带来的红利愈发有限,功耗问题已成为高能效处理器设计的主要挑战.与此同时,现代处理器的架构愈发复杂、设计空间愈发庞大,设计人员期望进行快速精确的指标权衡以获得更理想的微架构设计.此外,现有的层层分解的设计流程极为漫长耗时,已经难以实现全局能效最优.因此,如何在微架构设计阶段进行精确高效的前瞻性功耗估计和探索优化成为关键问题.为了应对这些挑战,机器学习技术被引入到微架构设计流程中,为处理器的微架构建模和优化提供了高质量方案.首先介绍了处理器的主要设计流程、微架构设计及其面临的挑战,然后阐述了机器学习辅助集成电路设计,重点在于使用机器学习技术辅助微架构功耗建模和设计空间探索的研究进展,最后进行总结展望.

    处理器设计自动化微架构设计功耗建模设计空间探索机器学习

    容错深度学习加速器跨层优化

    张青刘成刘波黄海同...
    1370-1387页
    查看更多>>摘要:容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽 2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销.

    跨层优化容错深度学习加速器脆弱因子异构架构选择性冗余

    Direct xPU:一种新型节点间通信优化的分布式异构计算架构

    李仁刚王彦伟郝锐肖麟阁...
    1388-1400页
    查看更多>>摘要:人工智能大模型应用的爆发式增长,使得难以依靠单一节点、单一类型的算力实现应用的规模部署,分布式异构计算成为主流选择,而节点间通信成为大模型训练或推理过程中的主要瓶颈之一.目前,主要由GPU,FPGA等头部芯片厂商所主导的各种计算架构的节点间通信方案还存在一些问题.一方面,为了追求极致的节点间通信性能,一部分架构选择使用协议简单而可扩展性差的点对点传输方案.另一方面,传统的异构计算引擎(例如GPU)虽然在内存、计算管线等算力要素方面独立于CPU,但在通信要素方面却缺少专属的网络通信设备,需要完全或部分借助于CPU通过PCIe等物理链路来处理异构计算引擎与共享网络通信设备之间的通信.所实现的Direct xPU分布式异构计算架构,使得异构计算引擎在算力要素和通信要素两方面均具有独立的、专属的设备,实现了数据的零拷贝,并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟.测试结果表明,Direct xPU取得了与追求极致的节点间通信性能的计算架构相当的通信延迟,带宽接近物理通信带宽的上限.

    节点间通信FPGAGPURDMA零拷贝

    面向多核CPU与GPU平台的图处理系统关键技术综述

    张园曹华伟张婕申玥...
    1401-1428页
    查看更多>>摘要:图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发.

    多核CPU与GPU平台图处理系统图数据表示负载均衡不规则访存动态图处理

    高性能自研处理器物理设计频率提升方法

    何小威乐大珩郭维隋兵才...
    1429-1435页
    查看更多>>摘要:提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%.

    布局布线协同优化物理设计签核频率

    面向处理器功能验证的硬件化SystemVerilog断言设计

    张子卿石侃徐烁翔王梁辉...
    1436-1449页
    查看更多>>摘要:功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升.

    断言处理器验证硬件仿真现场可编程逻辑门阵列原型验证

    国密SM4算法CBC模式的高效设计与实现

    郝泽钰代天傲黄亦成段岑林...
    1450-1457页
    查看更多>>摘要:密码技术是现代信息安全技术产业发展的核心,其中,国密SM4分组密码算法因其硬件实现简单、效率高等优点,已广泛应用于加密传输、加密存储等领域.随着应用领域的不断扩展,对硬件加密效率的需求也随之提高.目前,借助流水线技术,基于ASIC实现的SM4算法在ECB(electronic code book)工作模式下能够达到较高的吞吐量.然而,在CBC(cipher block chaining)模式下,由于相邻的数据存在依赖关系,流水线技术难以提高硬件设计的吞吐率.为解决这一问题,提出了 2种逻辑化简方法:一种作用于轮函数迭代过程,另一种作用于S盒置换过程.这 2种方法在每一轮迭代的关键路径中均减少了 2个异或运算的延时.在TSMC 40 nm工艺下的ASIC综合结果表明,该设计在CBC模式下的吞吐率达到 4.2 Gb/s,单位面积吞吐量达129.4 Gb·s-1·mm-2,高于已发表的同类设计.

    国密SM4算法CBC模式硬件加速高效设计ASIC

    SeChain:基于国密算法的RISC-V安全启动机制设计与实现

    芮志清梅瑶陈振哲吴敬征...
    1458-1475页
    查看更多>>摘要:开源RISC-V指令集为我国建立自主可控物联网生态提供了重大机遇.然而,物联网设备通常缺乏硬件加固措施,容易遭受物理级的固件篡改攻击,因此保障固件完整性以提高设备安全性至关重要.为此,已有基于安全启动技术的初步探索,但仍存在 3个问题:1)传统软件信任根难以保证物理级可靠性;2)主流硬件级安全启动技术被国际芯片厂商掌握,技术未公开且不支持国密算法,无法保证安全自主可控;3)已有基于RISC-V CPU的安全启动研究缺乏对上层固件的校验机制.为解决上述 3个问题,首次设计并实现基于国密SM9算法的RISC-V安全启动机制——SeChain.具体而言:1)在RISC-V SoC内部增加了签名计算单元(signature calculation unit,SCU),实现密钥对生成与签名;2)增加了密钥验证单元(key verification unit,KVU),实现验证算法的片内执行及固件完整性验证;3)设计实现基于验证引导的多级安全启动机制,从不可篡改的硬件信任根出发,逐级完成引导程序的完整性校验.基于上述设计,SeChain实现了信任根的不可篡改和安全可信,构造了一个可信的安全启动链,基于国密SM9算法为设备的安全启动和可信执行提供可靠保障.为了验证SeChain的有效性、高效性和可靠性,基于VexRiscv CPU在FPGA硬件平台完成了SeChain仿真验证实验.实验结果表明,SeChain能够有效抵御各类固件篡改攻击,并能对抗信任根攻击,且平均额外时间开销不超过 6.47 s.SeChain适用于资源受限的IoT设备,在满足安全可信启动的同时,能为国产RISC-V生态的安全自主可控提供有力保障.

    可信计算物联网安全安全启动SM9国密算法RISC-V

    持续学习的研究进展与趋势

    李文斌熊亚锟范祉辰邓波...
    1476-1496页
    查看更多>>摘要:随着深度学习技术的发展与应用,特别是资源受限场景和数据安全场景对序列任务和数据进行快速学习需求的增多,持续学习逐渐成为机器学习领域关注的一个新热点.不同于人类所具备的持续学习和迁移知识的能力,现有深度学习模型在序列学习过程中容易遭受灾难性遗忘的问题.因此,如何在动态、非平稳的序列任务及流式数据中不断学习新知识、同时保留旧知识是持续学习研究的核心.首先,通过对近年来持续学习国内外相关工作的调研与总结,将持续学习方法分为基于回放、基于约束、基于结构三大类,并对这 3类方法做进一步的细分.具体而言,根据所使用的样本来源将基于回放的方法细分为采样回放、生成回放、伪样本回放 3类;根据训练约束的来源将基于约束的方法细分为参数约束、梯度约束、数据约束 3类;根据对于模型结构的使用方式将基于结构的方法细分为参数隔离、模型拓展 2类.通过对比相关工作的创新点,对各类方法的优缺点进行总结.其次,对国内外研究现状进行分析.最后,针对持续学习与其他领域相结合的未来发展方向进行展望.

    深度学习知识迁移持续学习灾难性遗忘序列任务