首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    前言

    刘志勇窦勇
    1129-1130页

    处理器芯片敏捷设计方法:问题与挑战

    包云岗常轶松韩银和黄立波...
    1131-1145页
    查看更多>>摘要:现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture,OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了 OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战.

    处理器芯片设计面向对象体系结构设计范式芯片敏捷设计语言EDA工具

    实现软硬件解耦合的类脑计算硬件设计方法

    渠鹏陈嘉杰张悠慧郑纬民...
    1146-1154页
    查看更多>>摘要:类脑计算是一个涉及到多领域、多学科的新兴领域,对计算神经科学、人工智能和新型体系结构设计都具有重要的支持和启发意义.但是类脑计算系统领域发展所面临的重要问题之一是软硬件紧耦合.近期的一项研究提出了神经形态完备性的概念,为实现类脑计算系统领域的软硬件解耦合提供了理论支持,并作为样例研究提出了对应的系统层次结构设计.作为这一工作的后续,首先对神经形态完备性和类脑计算层次结构中部分关键的概念进行了阐述与讨论,之后进一步提出了在这一概念和体系结构设计下,实现支持软硬件解耦合的类脑计算硬件设计方法的构想,即由执行原语集合设计以及硬件实现方法设计组成的迭代调整的设计流程.最后,展示了正在进行的基于FP GA的相应评估平台工作.这一硬件设计方法有助于实现神经形态完备的高效原语集合和芯片设计,从而有利于实现类脑计算系统领域的软硬件解耦合.

    类脑计算完备性软硬件解耦合FPGA性能评估

    高性能众核处理器申威26010

    胡向东柯希明尹飞张新...
    1155-1165页
    查看更多>>摘要:申威26010高性能众核处理器在多核处理器申威1600基础上,采用片上系统(system on chip,SoC)技术,在单芯片内集成4个运算控制核心和256个运算核心,采用 自主设计的64位申威RISC(reduced instruction set computer)指令系统,支持256位 SIMD(single instruction multiple data)整数和浮点向量加速运算,单芯片双精度浮点峰值性能达3.168TFLOPS.申威26010处理器基于28 nm工艺流片,芯片die面积超过500 mm2,芯片260个核心稳定运行频率达1.5 GHz.申威26010处理器从结构级、微结构级到电路级,综合采用多种低功耗设计技术,峰值能效比达10.559GFLOPS/W.芯片运行频率和能效比均超过同时期国际同类型处理器.申威26010通过在高频率设计、稳定可靠性设计和成品率设计等方面的技术创新,有效解决了芯片在实现高性能目标中所遇到的高频率目标、功耗墙、稳定可靠性和成品率等难题,成功大规模应用于国产10万万亿次超级计算机系统"神威·太湖之光",有效满足了科学与工程应用的计算需求.

    申威指令集运算控制核心运算核心低功耗设计能效比

    面向多核处理器的可配置缓存一致性协议设计与实现

    陈志强周宏伟冯权友邓让钰...
    1166-1175页
    查看更多>>摘要:多核处理器需要维护缓存的一致性问题.基于目录的一致性协议具有较好的扩展性、较低的延迟,应用较多.分布式目录访问带宽高、目录查询速度快、物理实现灵活.分布式 目录一致性协议设计复杂度高,验证困难,为了降低自主CPU研发和产业化的风险,提出了一种面向多核处理器的可配置分布式目录控制单元(configurable distribute directory unit,CDDU),通过微操作机制,实现动态配置缓存一致性协议.该设计增加了多核系统缓存一致性协议的灵活性与容错性,可以实现协议状态转换和协议流程的配置,能够解决由于一致性协议设计缺陷导致的功能故障,可以防止一致性协议设计不足引起的死锁.测试结果表明:设计方案展现了良好的可配置性、可扩展性,避免了死锁产生,代价是少量的性能损耗以及面积开销.主要思想在自主飞腾64核处理器中进行了实现,为确保处理器的协议正确性发挥了重要作用,同时在该芯片的多路扩展实现过程中提高了协议的鲁棒性,消除了潜在的死锁.

    多核处理器一致性协议可配置容错死锁

    一种具有时间语义的实时处理器模型

    汪超陈香兰章博李曦...
    1176-1191页
    查看更多>>摘要:实时嵌入式系统是安全关键设备的计算与控制核心.为了保证系统的时间行为正确,要求其软硬件具有时序确定性和可预测性.而现代计算机系统的各个抽象层次均缺乏时间语义,无法满足硬实时安全性设计要求.针对指令集体系结构层次的基础设施缺乏时间语义的问题,尝试重新定义实时嵌入式系统的指令集和微体系结构.首先,提出一种具有时间语义的实时计算机体系结构模型——实时机(real-time machine,RTM).接着,参考时间触发自动机理论,构建具有时间语义的指令集——TTI(time-triggered instruction set)作为RTM的软硬件接口,并讨论TTI的时间语义完备性问题.最后,设计并实现了实时处理单元(real-time processing unit,RPU),通过理论分析与实验结果的对照得出RPU的时序确定性.逻辑执行时间(logical execution time,LET)编程模型是学术界广泛认可的实时编程范式,通过给出在RPU上运行LET任务集的示例,说明RTM和TTI的有效性.

    实时嵌入式系统时间可预测性实时机模型时间语义指令集实时处理器

    一种高性能超长点数浮点FFT加速器设计

    王谛石嵩吴铁彬刘亮...
    1192-1203页
    查看更多>>摘要:快速傅里叶变换(fast Fourier transform,FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor,DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了 3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升.

    快速傅里叶变换多维分解算法3维转置运算铰链因子生成加速器

    图神经网络加速结构综述

    李涵严明玉吕征阳李文明...
    1204-1229页
    查看更多>>摘要:近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入"认知智能"阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共存的混合执行模式.传统处理器结构设计以及面向图计算和神经网络的加速结构不能同时应对2种对立的执行行为,无法满足图神经网络的加速需求.为解决上述问题,面向图神经网络应用的专用加速结构不断涌现,它们为图神经网络定制计算硬件单元和片上存储层次,优化计算和访存行为,取得了良好的加速效果.以图神经网络执行行为带来的加速结构设计挑战为出发点,从整体结构设计以及计算、片上访存、片外访存层次对该领域的关键优化技术进行详实而系统地分析与介绍.最后还从不同角度对图神经网络加速结构设计的未来方向进行了展望,期望能为该领域的研究人员带来一定的启发.

    图神经网络混合执行模式加速结构人工智能领域专用架构

    DMR:兼容RISC-V架构的乱序超标量通用处理器核

    孙彩霞郑重邓全隋兵才...
    1230-1233页
    查看更多>>摘要:DMR是由国防科技大学计算机学院自研的一款兼容RISC-V架构的乱序超标量通用处理器核,支持用户态(user-mode)、特权态(supervisor-mode)和机器态(machine-mode)三种特权级模式,兼容RV64G指令集规范,并进行了 自定义向量扩展,虚存系统支持Sv39和Sv48,物理地址为44 b.DMR的单周期整数流水线为12级,指令乱序发射、顺序提交,指令发射宽度为4,实现了多个分布式调度队列,每拍最多可乱序调度9条指令执行.DMR采用覆盖率驱动的多层次、多平台的功能验证方法,已经在FPGA原型系统下成功启动Linux OS,CoreMark分数为5.12 MHz,在14 nm工艺下主频可达到2 GHz.

    RISC-V乱序超标量处理器核通用CPU

    一种自主设计的面向E级高性能计算的异构融合加速器

    刘胜卢凯郭阳刘仲...
    1234-1237页
    查看更多>>摘要:高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统"下一个明珠"的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片.

    高性能计算加速器异构融合体系结构自主设计高效能