首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展

    冯杨洋汪庆谢旻晖舒继武...
    809-823页
    查看更多>>摘要:以ChatGPT为代表的大模型在文字生成、语义理解等任务上表现卓越,引起了工业界和学术界的广泛关注.大模型的参数量在 3年内增长数万倍,且仍呈现增长的趋势.首先分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算模式、访存模式、数据特征,这使得针对互联网、大数据等应用的传统存储技术在处理大模型训练任务时效率低下,且容错开销大.然后分别阐述了针对大模型训练的 3类存储加速技术与 2类存储容错技术.针对大模型训练的存储加速技术包括:1)基于大模型计算模式的分布式显存管理技术,依据大模型计算任务的划分模式和计算任务间的依赖关系,设计模型数据在分布式集群中的划分、存储和传输策略;2)大模型训练访存感知的异构存储技术,借助大模型训练中的访存模式可预测的特性,设计异构设备中的数据预取和传输策略;3)大模型数据缩减技术,针对大模型数据的特征,对模型训练过程中的数据进行缩减.针对大模型训练的存储容错技术包括:1)参数检查点技术,将大模型参数存储至持久化存储介质;2)冗余计算技术,在多张GPU中重复计算相同版本的参数.最后给出了总结和展望.

    ChatGPT大模型存储系统容错大模型训练系统

    基于缓存访问模式的C-AMAT测量方法及其在图计算中的应用

    陈炳彰刘伟于萧钰
    824-839页
    查看更多>>摘要:图应用是大数据领域的一个重要分支,尽管图分析在显示表示实体之间关系的能力相比传统的关系数据库具有更显著的性能优势,但图处理中大量的随机访问所导致的不规则访存模式破坏了访存的时间和空间局部性,从而对片外内存系统造成了很大的性能压力.因此如何正确度量图应用在内存系统中的性能,对于高效的图应用体系结构优化设计至关重要.并发式平均存储访问时间(concurrent average memory access time,C-AMAT)模型作为平均存储访问时间(average memory access time,AMAT)的扩展,同时考虑了存储器访问的局部性和并发性,能够更准确地对现代处理器下图应用在存储系统中的性能进行评估分析.但C-AMAT模型忽略了处理器下级cache层串行访问的事实,这会导致计算的不准确性,同时由于计算所需参数纯粹缺失周期等难以获取的原因,也使得C-AMAT难以进行实际应用.为了使C-AMAT的计算模型与现代计算机中的存储器访问模式相匹配,基于C-AMAT提出了PC-AMAT(parallel C-AMAT),SC-AMAT(serial C-AMAT),其中PC-AMAT,SC-AMAT分别从cache的并行和串行访问模式对C-AMAT的计算模型进行了细粒度的扩展和表征,并在此基础上设计并实现了纯粹缺失周期的提取算法,避免直接测量带来的巨大硬件开销.实验结果表明,在单核和多核模式下,PC-AMAT和SC-AMAT与IPC之间的相关性比C-AMAT更强,最终利用PC-AMAT和SC-AMAT度量和分析了图应用的存储器性能并据此提出图应用访存优化策略.

    图应用图分析平均存储访问时间并发式平均存储访问时间纯粹缺失周期缓存

    RR-SC:边缘设备中基于随机计算神经网络的运行时可重配置框架

    宋玉红沙行勉诸葛晴凤许瑞...
    840-855页
    查看更多>>摘要:随着人工智能民主化的发展,深度神经网络已经被广泛地应用于移动嵌入式设备上,例如智能手机和自动驾驶领域等.随机计算作为一种新兴的、有前途的技术在执行机器学习任务时使用简单的逻辑门而不是复杂的二进制算术电路.它具有在资源(如能源、计算单元和存储单元等)受限的边缘设备上执行深度神经网络低能耗、低开销的优势.然而,之前的关于随机计算的工作都仅仅设计一组模型配置并在固定的硬件配置上实现,忽略了实际应用场景中硬件资源(如电池电量)的动态改变,这导致了低硬件效率和短电池使用时间.为了节省电池供电的边缘设备的能源,动态电压和频率调节技术被广泛用于硬件重配置以延长电池的使用时间.针对基于随机计算的深度神经网络,创新性地提出了一个运行时可重配置框架,即RR-SC,这个框架首次尝试将硬件和软件的重配置相结合以满足任务的时间约束并最大限度节省能源.RR-SC利用强化学习技术可以一次性生成多组模型配置,同时满足不同硬件配置(即不同的电压/频率等级)下的准确率要求.RR-SC得到的解具有最好的准确率和硬件效率权衡.同时,多个模型配置运行时在同一个主干网络上进行切换,从而实现轻量级的软件重配置.实验结果表明,RR-SC可以在 110 ms内进行模型配置的轻量级切换,以保证在不同硬件级别上所需的实时约束.同时,它最高可以实现7.6倍的模型推理次数提升,仅造成1%的准确率损失.

    边缘设备随机计算运行时重配置动态硬件环境轻量级软件重配置强化学习

    基于图神经网络的小样本学习方法研究进展

    杨洁祎董一鸿钱江波
    856-876页
    查看更多>>摘要:小样本学习(few-shot learning,FSL)旨在利用少量样本学习得到解决问题的模型,为解决应用场景中样本量少或标注样本少的问题.图神经网络(graph neural network,GNN)由于其在许多应用中的卓越性能引起了极大的关注,许多学者开始尝试利用图神经网络进行小样本学习,基于图神经网络的方法在小样本领域取得了卓越的成绩.目前与基于图神经网络的小样本学习方法相关的综述性研究较少,缺乏该类方法的划分体系与介绍性工作,因此系统地梳理了当前基于图神经网络的小样本学习的相关工作:概括了小样本学习的图神经网络方法的概念,根据模型的基本思想将其划分为基于节点特征、基于边特征、基于节点对特征和基于类级特征的 4类方法,介绍了这 4类方法的研究进展;总结了目前常用的小样本数据集和代表性模型在这些数据集上的实验结果,归纳各类方法主要的研究内容和优劣势;最后概述了基于图神经网络的小样本学习方法的应用和面临的挑战,并展望其未发展方向.

    小样本学习图神经网络元学习度量学习迁移学习

    Light-HGNN:用于圈层内容推荐的轻量同质超图神经网络

    李挺金福生李荣华王国仁...
    877-888页
    查看更多>>摘要:图神经网络和超图神经网络(hypergraph neural network,HGNN)已经成为协同过滤推荐领域的研究热点.然而实际场景中用户和项目的交互非常复杂,导致用户之间存在高阶的复杂关系,而普通图结构只能表达简单的成对关系,对网络结构的堆叠容易导致中间层表征的过度平滑,在稀疏场景下的用户建模、用户相似性发现与挖掘方面能力较弱;同时,异质超图神经网络的复杂结构使得模型的训练效率较低.在以微信"搜一搜"等内容平台为代表的高度稀疏数据场景中,对于基于用户所属群体画像的圈层内容推荐任务,现有模型推荐效果差、用户表示的可解释性弱.因此,针对该类任务,提出了一个新的轻量同质超图神经网络模型,该模型包含用户交互数据至超图的转化、卷积生成用户表征序列、用户表征计算过滤.模型首先将用户-项目交互数据转化为只含用户节点的同质超图并计算得到用户表征解耦序列初始值,随后根据超图拉普拉斯过滤矩阵进行信息传播与序列值的迭代生成,通过不使用激活层的卷积方法简化模型结构,并根据提出的均值差JK注意力机制为每个序列值生成权重矩阵.最终,通过对解耦序列加权求和、过滤实现对用户表示的编码,并在真实数据集上进行实验验证了所提模型的相对更优效果.

    同质超图超图神经网络个性化推荐圈层内容推荐推荐算法

    基于多模态知识主动学习的视频问答方案

    刘明阳王若梅周凡林格...
    889-902页
    查看更多>>摘要:视频问答是人工智能领域的一个热点研究问题.现有方法在特征提取方面缺乏针对视觉目标运动细节的获取,从而会导致错误因果关系的建立.此外,在数据融合与推理过程中,现有方法缺乏有效的主动学习能力,难以获取特征提取之外的先验知识,影响了模型对多模态内容的深度理解.针对这些问题,首先,设计了一种显性多模态特征提取模块,通过获取图像序列中视觉目标的语义关联以及与周围环境的动态关系来建立每个视觉目标的运动轨迹.进一步通过动态内容对静态内容的补充,为数据融合与推理提供了更加精准的视频特征表达.其次,提出了知识自增强多模态数据融合与推理模型,实现了多模态信息理解的自我完善和逻辑思维聚焦,增强了对多模态特征的深度理解,减少了对先验知识的依赖.最后,提出了一种基于多模态知识主动学习的视频问答方案.实验结果表明,该方案的性能优于现有最先进的视频问答算法,大量的消融和可视化实验也验证了方案的合理性.

    视频问答数据融合与推理多模态主动学习视频细节描述提取深度学习

    基于图核同构网络的图分类方法

    徐立祥葛伟陈恩红罗斌...
    903-915页
    查看更多>>摘要:图表示学习已成为图深度学习领域的一个研究热点.大多数图神经网络存在过平滑现象,这类方法重点关注图节点特征,对图的结构特征关注度不高.为了提升对图结构特征的表征能力,提出了一种基于图核同构网络的图分类方法,即KerGIN.该方法首先通过图同构网络(graph isomorphism network,GIN)对图进行节点特征编码,并使用图核方法对图进行结构编码,进一步利用Nyström方法降低图核矩阵的维度.其次借助MLP将图核矩阵与图特征矩阵对齐,通过注意力机制将图的特征编码和结构编码进行自适应加权融合,进而得到图的最终特征表示,提升了图结构特征信息的表达能力.最后在 7个公开的图分类数据集上对模型进行了实验评估:与现有图表示模型相比,KerGIN模型能够在图分类准确度上有较大幅度提升,它可以增强GIN对图结构特征信息的表达能力.

    图分类图神经网络图核Nyström方法图注意力机制

    面向远程监督命名实体识别的噪声检测

    王嘉诚王凯王昊奋杜渂...
    916-928页
    查看更多>>摘要:针对远程监督命名实体识别(named entity recognition,NER)任务,目前有许多基于强化学习的方法,利用强化学习的强大决策能力,对远程监督生成的自动标注数据进行噪声过滤.然而,这些方法所使用的策略网络模型架构都较简单,识别噪声能力较弱,且都以完整的句子样本为单位进行识别,导致句子中的部分正确信息被丢弃.为解决上述问题,提出了一种新的基于强化学习的方法,称为RLTL-DSNER,该方法可以从远程监督生成的带噪数据中,以单词级别识别正确实例,减少噪声实例对远程监督NER的负面影响.具体来说,在策略网络模型中引入了标签置信函数来准确识别实例.此外,提出了一种新颖的NER模型预训练策略,使其能为强化学习的初始训练提供精准的状态表示和有效的奖励值,引导其向正确的方向更新.在 4个数据集上的实验结果验证了RLTL-DSNER方法的优越性,在NEWS数据集上,相较于现有最先进的方法,获得了4.28%的F1提升.

    命名实体识别远程监督深度强化学习噪声检测预训练策略

    数据库索引调优技术综述

    赖思超吴小莹彭煜玮彭智勇...
    929-954页
    查看更多>>摘要:索引调优是数据库调优的重要组成部分,一直受到广泛关注.由于索引调优问题的理论复杂性和大数据时代的到来,通过DBA手动调优的方案已经无法满足现代数据库的发展需求,调优方案逐渐开始向自动化、智能化的方向发展.随着机器学习技术的发展,越来越多的索引选择方案开始引入机器学习技术,并取得了一定的研究成果.将索引调优问题的解决方案归结为一种基于搜索的调优范式,归纳了其研究内容,阐述了其面临的挑战,对调优范式内的索引配置空间的生成、索引配置的评价以及索引配置的枚举与搜索 3方面的研究成果进行了归纳、总结和对比.对动态工作负载下的索引选择问题(index selection problem,ISP)所面临的新挑战进行了分析,并基于在线反馈控制回路框架对其解决方案进行梳理.讨论了索引调优工具的发展与现状,通过对现有研究的分析论述,为后来研究者提供参考和研究思路,并对索引选择方案的未来进行了展望.

    数据库索引索引选择索引调优性能调优机器学习

    申威26010众核处理器上Winograd卷积算法的研究与优化

    武铮金旭安虹
    955-972页
    查看更多>>摘要:卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威 26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威 26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换 4部分构成,这 4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的 7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.

    深度学习Winograd卷积高性能计算并行算法申威处理器