首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    龙架构:一种开放自主指令集架构的实践

    徐志伟
    1页

    龙芯指令系统架构技术

    胡伟武汪文祥吴瑞阳王焕东...
    2-16页
    查看更多>>摘要:介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch).LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确保现有龙芯电脑上应用二进制的无损迁移,而且能够实现多种国际主流指令系统的高效二进制翻译.LoongArch已经被实现于龙芯中科技术股份有限公司研制的3A5000四核CPU.SPEC CPU2006的实验结果表明,在相同微结构下,LoongArch性能比龙芯CPU原指令系统MIPS平均提升超过7%.在硬件辅助支持下,SPECCPU2000程序从MIPS翻译到LoongArch可以实现无损翻译,其定点程序子集和浮点程序子集从x86翻译到LoongArch的效率分布达QEMU二进制翻译器的3.6倍和47.0倍.LoongArch有望消除指令系统之间的壁垒,使得不同指令集的软件能够融合到统一的LoongArch平台上,不加区别地高效运行.

    龙芯CPUMIPS架构龙架构二进制翻译兼容软件生态系统

    类脑处理器异步片上网络架构

    杨智杰王蕾石伟彭凌辉...
    17-29页
    查看更多>>摘要:类脑处理器较深度学习处理器具有能效优势.类脑处理器的片上互连一般采用具有可扩展性高、吞吐量高和通用性高等特点的片上网络.为了解决采用同步片上网络面临的全局时钟树时序难以收敛的问题以及采用异步片上网络面临的链路延迟匹配、缺乏电子设计自动化工具实现和验证的问题,提出了一种异步片上网络架构——NosralC,用于构建全局异步局部同步(global asynchronous local synchronous,GALS)的多核类脑处理器.NosralC采用异步链路和同步路由器实现.实验表明,NosralC较同步基线,在4个类脑应用数据集下展现出37.5%~38.9%的功耗降低、5.5%~8.0%的平均延迟降低和36.7%~47.6%的能效提升,同时增加不多于6%的额外资源以及带来较小的性能开销(吞吐量降低0.8%~2.4%).NosralC在现场可编程门阵列(FPGA)上得到了验证,证明了该架构的可实现性.

    类脑处理器片上网络异步电路全局异步局部同步脉冲神经网络

    基于多级一致性协议的多核处理器WCET分析方法

    朱怡安史先琛姚烨李联...
    30-42页
    查看更多>>摘要:由于多核处理器优越的计算性能,多核处理器现已广泛应用在嵌入式实时系统中.相对于单核处理器,多核处理器存在资源共享竞争、并行任务干扰等因素,尤其是缓存(Cache)一致性问题,导致任务最坏情况执行时间(worst-case execution time,WCET)的预测更加困难.基于以上因素,提出基于多级一致性协议的多核处理器WCET分析方法.该方法针对多级一致性协议体系架构,提出多级一致性域的概念,将多核处理器的数据访问分为域内访问和跨域访问2个层次,根据Cache读写策略和MESI(modify exclusive shared invalid)一致性协议,得出一致性域内部和跨一致性域的Cache状态更新函数,从而实现多级一致性协议嵌套情况下的WCET分析.实验结果表明,在改变Cache配置参数的情况下,该方法分析结果与GEM5仿真结果的变化趋势一致,经过相关性分析,GEM5仿真结果与该方法分析结果相关性系数不低于0.98;在分析精度方面,该方法的平均过估计率为1.30,相比现有方法降低了 0.78.

    最坏情况执行时间Cache一致性协议跨一致性域静态分析时序分析

    面向低精度神经网络的数据流体系结构优化

    范志华吴欣欣李文明曹华伟...
    43-58页
    查看更多>>摘要:数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了 Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升.

    数据流架构低精度神经网络量化可重构架构直接内存访问

    因果机器学习的前沿进展综述

    李家宁熊睿彬兰艳艳庞亮...
    59-84页
    查看更多>>摘要:机器学习是实现人工智能的重要技术手段之一,在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域有着重要应用.现有的机器学习方法往往注重数据中的相关关系而忽视其中的因果关系,而随着应用需求的提高,其弊端也逐渐开始显现,在可解释性、可迁移性、鲁棒性和公平性等方面面临一系列亟待解决的问题.为了解决这些问题,研究者们开始重新审视因果关系建模的必要性,相关方法也成为近期的研究热点之一.在此对近年来在机器学习领域中应用因果技术和思想解决实际问题的工作进行整理和总结,梳理出这一新兴研究方向的发展脉络.首先对与机器学习紧密相关的因果理论做简要介绍;然后以机器学习中的不同问题需求为划分依据对各工作进行分类介绍,从求解思路和技术手段的视角阐释其区别与联系;最后对因果机器学习的现状进行总结,并对未来发展趋势做出预测和展望.

    因果关系伪相关关系因果推断机器学习深度学习人工智能

    基于多任务学习的位置倾向性得分预测算法

    曹泽麟徐君董振华文继荣...
    85-94页
    查看更多>>摘要:用户搜索时产生的点击数据分布,在不同的搜索场景下存在较大差异.现有算法如融合上下文的位置模型(contextual position based model,CPBM)往往只通过单个模型预测多种场景下的位置倾向性得分,不可避免地降低了模型在不同场景下的预测准确性,影响去除位置偏置的效果.基于上述问题提出一种基于多任务学习的多门专家混合位置倾向性得分预测模型(multi-gate contextual position based model,MCPBM),在CPBM模型的基础上加入信息筛选结构,解决了多场景数据联合训练时预测准确性不佳的问题.同时,为了缓解不同任务收敛速度不一致的问题,提出了指数加权平均权重动态调整算法,在加速模型训练的同时提升了模型整体预测性能.实验结果表明提出的MCPBM模型在多场景数据联合训练时,预测准确性优于传统的CPBM;在使用MCPBM模型去除位置偏置后,基于生成的无偏数据训练得到的排序模型,在AvgRank排序指标上有1%-5%的提升.

    位置偏置无偏排序逆概率加权多任务学习倾向性得分预测

    基于模型诊断的一种新编码方法

    周慧思欧阳丹彤田新亮张立明...
    95-102页
    查看更多>>摘要:基于模型诊断(model-based diagnosis,MBD)是人工智能诊断领域中著名的诊断求解方法之一,旨在识别诊断问题的根本原因.由于求解诊断解在计算上具有挑战性,一些MBD算法提出通过修改模型的编码来提高诊断效率,如面向统治者的编码(dominator-orientedencoding,DOE)方法.面向观察的编码(observation-oriented encoding,OOE)方法使用2种方法对MBD模型进行约简.首先,利用系统观测和统治组件输出的一些过滤边来约简系统描述和观测.其次,通过查找基于观测的过滤节点来过滤更多的组件,进而有效约简组件的编码规模.此外,在ISCAS85和ITC99基准测试用例上的实验结果表明,与目前最新的MBD编码方法DOE和传统的基础编码(basic encoding,BE)相比,上述2种约简方法有效减少了 MBD实例的编码子句数量比,降低MaxSAT求解器求解诊断的难度,进而能在更短的时间内返回一个诊断解.

    基于模型诊断最大可满足性问题基于统治关系的编码顶层诊断极小势诊断

    基于转换学习的半监督分类

    康昭刘亮韩蒙
    103-111页
    查看更多>>摘要:近年来,基于图的半监督分类是机器学习与模式识别领域的研究热点之一.该类方法一般通过构造图来挖掘数据中隐含的信息,并利用图的结构信息来对无标签样本进行分类,因此半监督分类的效果严重依赖于图的质量,尤其是图的构建方法和数据的质量.为解决上述问题,提出了 一种基于转换学习的半监督分类(semi-supervised classification based on transformed learning,TLSSC)算法.不同于已有的大多数半监督分类算法,此算法试图学习到一个转换空间,并在该空间上构建图,进行标签传播.具体来说,此算法建立了一个统一的联合优化框架,其由3个部分组成:1)使用转换学习将原始数据映射到转换空间中;2)借鉴数据自表示思想,在转换空间上学习一个图;3)在图上进行标签传播.这3个步骤交替进行、互相促进,避免低质量图导致的次优解.对人脸和物品数据集进行实验,结果表明所提出的TLSSC算法在大部分情况下优于现有的其他算法.

    半监督分类转换学习图构建标签传播表征学习

    基于时间和关系感知的图协同过滤跨域序列推荐

    任豪刘柏嵩孙金杨董倩...
    112-124页
    查看更多>>摘要:跨域序列推荐旨在从给定的某用户在不同领域中的历史交互序列中挖掘其偏好,预测其在多个领域中最可能与之交互的下一个项目,以缓解数据稀疏对用户意图捕捉和预测的影响.受协同过滤思想启发,提出一种基于时间和关系感知的图协同过滤跨域序列推荐(time and relation-aware graph collaborative filtering for cross-domain sequential recommendation,TRaGCF)算法,充分挖掘用户高阶行为模式同时利用跨域用户行为模式双向迁移,解决序列推荐中的数据稀疏问题.首先,为获得用户行为序列中项目间复杂的时序依赖关系,提出时间感知图注意力(time-aware graph attention,Ta-GAT)学习项 目的域间序列级表示;其次,通过域内用户-项 目交互二部图挖掘用户的行为偏好,提出关系感知图注意力(relation-aware graph attention,Ra-GAT)学习项目协同表示和用户协同偏好表示,为用户偏好特征的跨域迁移提供基础;最后为同步提高2个领域中的推荐效果,提出用户偏好特征双向迁移模块(user preference feature bi-directional transfer module,PBT),实现迁移用户域间共有偏好,保留用户域内特有偏好.在Amazon Movie-Book和Food-Kitchen数据集上验证了算法的正确性和有效性.实验结果表明,在跨域序列推荐场景下考虑项目间深层复杂的关联关系对挖掘用户意图十分必要;实验还验证了在跨域迁移用户偏好过程中保留域内用户特有偏好对全面用户画像的重要性.

    跨域序列推荐图协同过滤时间感知图注意力机制关系感知注意力机制数据稀疏