首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    从ChatGPT看AI未来趋势和挑战

    桑基韬于剑
    1191-1201页
    查看更多>>摘要:在人工智能领域,ChatGPT作为一种重要的技术突破,引起了广泛的关注.本文将探讨ChatGPT在人工智能发展中的地位及其对未来AI的影响.首先,介绍了ChatGPT所展现出的优秀对话生成能力,使其几乎可以胜任所有自然语言处理任务,并将作为数据生成器、知识挖掘工具、模型调度员、自然交互界面在各种场景得到应用.接着,分析了其在事实错误、毒害内容生成、安全性、公平性、可解释性、数据隐私等方面的局限,并讨论了作为辅助人类工具的ChatGPT明确能力边界和提高能力范围的重要性.然后,从概念经典表示对"真"定义进行了分析,并从概念三指不等价的角度阐释性了ChatGPT无法区分真假的原因.在论述AI未来时,从拓展应用、克服局限、探索理论分析了中短期技术趋势,并从感知、认知、情感、行为智能四个层面的关系讨论了长期发展路径.最后,探讨了ChatGPT作为认知智能的代表,对包括认知成本、教育要求、图灵测试认识、学术界的机遇与挑战、信息茧房、能源环境问题和生产力提升等方面可能产生的影响.

    ChatGPT人工智能发展对话生成技术挑战可信AI社会影响

    前言

    李华伟包云岗梁云
    1202-1203页

    基于SoC-FPGA的RISC-V处理器软硬件系统级平台

    齐乐常轶松陈欲晓张旭...
    1204-1215页
    查看更多>>摘要:构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率.

    硅前系统级平台软硬件全系统评估RISC-V指令集处理器SoC-FPGA

    Puzzle:面向深度学习集成芯片的可扩展框架

    王梦迪王颖刘成常开颜...
    1216-1231页
    查看更多>>摘要:芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用.然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势.因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)——Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销.实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5%的工作负载运行延迟.

    芯片敏捷定制芯粒深度学习芯片神经网络处理器任务调度

    面向飞腾迈创数字处理器的内核代码自动生成框架

    赵宵磊陈照云时洋文梅...
    1232-1245页
    查看更多>>摘要:数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域.飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘.不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发.然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力.尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出.针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中.该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化.该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性.此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计.实验表明,该框架生成的内核基准测试代码的平均性能是目标—数字信号处理器(DSP)——的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍.

    内核代码生成超长指令字-单指令多数据循环分块标量-向量协同数字信号处理器

    HyWarm:针对处理器RTL仿真的自适应混合预热方法

    周耀阳韩博阳蔺嘉炜王凯帆...
    1246-1261页
    查看更多>>摘要:在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大.HyWarm框架的提出是为了加速性能测算过程中的预热过程.HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间.HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%.

    高性能处理器芯片设计敏捷开发负载采样功能预热

    跨云环境下任务调度综述

    唐续豪刘发贵王彬李超...
    1262-1275页
    查看更多>>摘要:随着云计算技术的不断发展,越来越多的企业和组织开始采用跨云的方式进行IT交付.跨云环境可以更有效地应对传统单云环境资源利用率低、资源受限以及供应商锁定等问题,并对云资源进行统一管理.由于跨云环境中资源具有异构性,导致跨云任务调度变得更为复杂.基于此,如何合理地调度用户任务并将其分配到最佳的跨云资源上执行,成为了跨云环境中需要解决的重要问题.拟从跨云环境的角度出发,探讨该环境下任务调度算法研究的进展及挑战.首先,结合跨云环境特征将云计算分为联盟云、多云环境并进行详细介绍,同时回顾已有的任务调度类型并分析其优缺点;其次,根据研究现状选取代表性文献对跨云环境下任务调度算法进行整理、分析;最后探讨了跨云环境下任务调度算法研究中的不足和未来的研究趋势,为跨云环境下任务调度算法的进一步研究提供了参考.

    云计算跨云任务调度联盟云多云

    面向边缘智能的联邦学习综述

    张雪晴刘延伟刘金霞韩言妮...
    1276-1295页
    查看更多>>摘要:随着边缘智能需求的快速增长,联邦学习(federated learning,FL)技术在产业界受到了极大的关注.与传统基于云计算的集中式机器学习相比,边缘网络环境下联邦学习借助移动边缘设备共同训练机器学习模型,不需要把大量本地数据发送到云端进行处理,缩短了数据处理计算节点与用户之间的距离,在满足用户低时延需求的同时,用户数据可以在本地训练进而实现数据隐私保护.在边缘网络环境下,由于通信资源和计算资源受限,联邦学习的性能依赖于无线网络状态、终端设备资源以及数据质量的综合限制.因此,面向边缘智能应用,首先分析了边缘智能环境下高效联邦学习面临的挑战,然后综述联邦学习在客户端选择、模型训练与模型更新等关键技术方面的研究进展,最后对边缘智能联邦学习的发展趋势进行了展望.

    联邦学习边缘计算边缘智能模型聚合资源受限

    异构边缘资源的任务卸载和协同调度

    李小平周志星陈龙朱洁...
    1296-1307页
    查看更多>>摘要:边缘计算广泛应用于物联网、车联网和在线游戏等新兴领域,通过网络边缘部署计算资源为终端设备提供低延迟计算服务.针对如何进行任务卸载以权衡任务执行时间与传输时间、如何调度多个不同截止期任务以最小化总延迟时间等挑战性问题,提出1种异构边缘协同的任务卸载和调度框架,包括边缘网络拓扑节点排序、边缘节点内任务排序、任务卸载策略、任务调度和结果调优等算法组件;设计多种任务卸载策略和任务调度策略;借助多因素方差分析(multi-factor analysis of variance,ANOVA)技术在大规模随机实例上校正算法算子和参数,得到统计意义上的最佳调度算法.基于EdgeCloudSim仿真平台,将所提出调度算法与其3个变种算法从边缘节点数量、任务数量、任务分布、截止期取值区间等角度进行性能比较.实验结果表明,所提出调度算法在各种情形下性能都优于对比算法.

    边缘计算任务卸载任务调度截止期延迟时间

    面向GPU集群的动态资源调度方法

    傅懋钟胡海洋李忠金
    1308-1321页
    查看更多>>摘要:深度神经网络(deep neural network,DNN)已广泛应用于人类社会的许多领域.大规模的DNN模型可显著提高识别精度,然而在单个GPU设备上训练大规模的DNN模型需要耗费大量的时间.因此,如何借助分布式深度学习(distributed deep learning,DDL)技术,在GPU集群上并行地训练多DNN模型已受到工业界和学术界的广泛关注.基于此,提出一种面向GPU集群的动态资源调度(dynamic resource scheduling,DRS)方法,解决异构带宽环境下具有截止时间要求的多DNN任务调度问题.具体来说,首先基于Ring-AllReduce通信方式构建资源-时间模型,以衡量DDL任务在不同资源方案下的运行时间;然后基于截止时间需求构建了资源-性能模型,以实现高效的资源利用;最后,结合上述资源-时间和资源-性能模型设计了DRS算法,为多DNN任务训练实现资源方案决策.在DRS算法中融入最近截止时间原则进行实际资源分配,并利用资源迁移机制减少调度过程中出现的资源碎片场景的影响.在4个NVIDIA GeForce RTX 2080 Ti的GPU集群上的异构带宽的实验表明,DRS相较于对比算法提升了39.53%的截止时间保证率,并在调度过程中GPU集群节点的资源利用率达到了91.27%.

    资源调度GPU集群分布式深度学习异构带宽资源迁移