首页期刊导航|计算机学报
期刊信息/Journal information
计算机学报
计算机学报

高文

月刊

0254-4164

cjc@ict.ac.cn

010-62620695

100190

中国科学院计算技术研究所(北京2704信箱)

计算机学报/Journal Chinese Journal of ComputersCSCD北大核心CSTPCDEI
查看更多>>本刊是中国计算机领域的有代表性学术刊物,作为一种科学研究档案,代表了计算机领域各个研究阶段的水平。本刊被《工程索引》(美国)、《科学文摘》(英国)、《数学文摘》(美国)、《科技文献速报》(日本)、《文摘杂志》(俄罗斯)等多种权威系统收录。是科技部科技信息研究所科技论文统计源期刊、中国科学引文数据库来源期刊。
正式出版
收录年代

    分布式训练系统及其优化算法综述

    王恩东闫瑞栋郭振华赵雅倩...
    1-28页
    查看更多>>摘要:人工智能利用各种优化技术从海量训练样本中学习关键特征或知识以提高解的质量,这对训练方法提出了更高要求.然而,传统单机训练无法满足存储与计算性能等方面的需求.因此,利用多个计算节点协同的分布式训练系统成为热点研究方向之一.本文首先阐述了单机训练面临的主要挑战.其次,分析了分布式训练系统亟需解决的三个关键问题.基于上述问题归纳了分布式训练系统的通用框架与四个核心组件.围绕各个组件涉及的技术,梳理了代表性研究成果.在此基础之上,总结了基于并行随机梯度下降算法的中心化与去中心化架构研究分支,并对各研究分支优化算法与应用进行综述.最后,提出了未来可能的研究方向.

    分布式训练系统(去)中心化架构中心化架构算法(异)同步算法并行随机梯度下降收敛速率

    基于机器学习的演化多任务优化框架

    麦伟杰刘伟莉钟竞辉
    29-51页
    查看更多>>摘要:演化多任务优化是近年来计算智能领域的研究热点之一,其原理是通过任务间的知识转移提高演化算法同时求解多个任务的效率.由于任务间相似性对促进任务之间的正向知识转移具有重要的影响,因此,如何度量任务间的相似性成为了重点研究方向之一.目前,演化多任务优化在处理两个任务时,辅助任务的选取仅限于两者之一,且在处理超多任务时对任务间知识的转移缺乏灵活性.为此,本文提出一个基于机器学习的演化多任务优化框架,命名为MaTML.该框架联合所有任务关联的子种群形成一个统一的初始化种群,利用目标任务的技能因子及其对应的种群个体分别构建标签和训练集,应用十折交叉法拟合模型,并运用模型预测与目标任务相似的个体以组成辅助种群,从而促进演化优化中的正向知识转移.本文提出的算法能够在动态的种群个体中找到目标任务的辅助种群,不仅可以为三个或以上的多任务优化灵活地选取相似辅助任务,而且解决了当任务数量为两个时有效地选择辅助任务的问题.通过与现阶段的多任务算法和超多任务算法分别在CEC2017问题测试集和WCCI2020SO问题测试集进行比较,实验结果证实MaTML在优化多任务问题时具有更优或竞争性的性能.此外,文中还详细研究了 MaTML的计算资源、模型性能、模型稳定性以及相关组件.最后,本文还基于真实问题的测试进一步验证了 MaTML的有效性.

    演化多任务优化机器学习任务间相似性知识转移辅助任务

    张量学习诱导的多视图谱聚类

    陈曼笙蔡晓莎林家祺王昌栋...
    52-68页
    查看更多>>摘要:现有的方法将通过张量奇异值分解(t-SVD)正则化的低秩表示应用到多视图子空间聚类中,取得了令人印象深刻的聚类性能.然而,它们都具有以下两个共同的缺点:(1)他们专注于探索样本之间的关系以构建表征,然后将其堆叠为张量,其计算复杂度至少为O(n2logn);(2)他们总是直接在整合的表征上运行标准的谱聚类算法,而忽略了不同表征对最终聚类结果的先验知识.为了解决这些问题,本文提出了一种新颖的张量学习诱导的多视图谱聚类(TLIMSC)方法,其中同时探索了空间聚类结构和互补信息.具体来说,该方法将关联样本和簇关系的多视图谱嵌入表示堆叠成张量,计算复杂度最终变为O(nlogn).然后,将学习到的带有不同自适应置信度的表征与最终的一致聚类结果联系起来.在五个数据集上的广泛实验证明了 TLIMSC所具有的有效性和高效性.

    多视图聚类加权张量核范数谱嵌入表征自适应置信度

    一种采用混合策略的大规模多目标进化算法

    谢承旺潘嘉敏郭华王冬梅...
    69-89页
    查看更多>>摘要:现实中存在大量的大规模多目标优化问题,这些问题所固有的目标函数间冲突性、巨大的搜索空间以及决策变量可能存在的交互等特征对传统的多目标进化算法构成了巨大的挑战.研究者根据此类问题的特点基于不同的视角提出了多种大规模多目标进化算法,但它们在解题的质量和效率方面尚存较大的提升空间.基于此,提出一种采用混合策略的大规模多目标进化算法LSMOEA/HS.该算法提出的一种黄金分层分组方法将大规模决策变量分成收敛性组和多样性组,然后对收敛性变量组执行基于变量组的相关性检测操作,将收敛性变量组划分成若干更小规模的子组,最后算法采用不同的优化策略分别优化收敛性变量组和多样性变量组以获得最终的解题结果.为验证LSMOEA/HS的有效性,将其与五种新近提出的高效的大规模多目标进化算法一同在决策变量维度为200、500、1000、2000和5000的2-目标和3-目标的LSMOP系列测试实例上进行IGD和HV性能测试,实验结果表明LSMOEA/HS具有显著较优的收敛性和多样性.由此表明,LSMOEA/HS是一种颇具前景的大规模多目标进化算法.

    大规模多目标优化问题变量分组进化算法收敛性多样性大规模多目标进化算法

    基于深度学习的自然语言处理鲁棒性研究综述

    桂韬奚志恒郑锐刘勤...
    90-112页
    查看更多>>摘要:近年来,基于深度神经网络的模型在几乎所有自然语言处理任务上都取得了非常好的效果,在很多任务上甚至超越了人类.展现了极强能力的大规模语言模型也为自然语言处理模型的发展与落地提供了新的机遇和方向.然而,这些在基准测试集合上取得很好结果的模型在实际应用中的效果却经常大打折扣.近期的一些研究还发现,在测试数据上替换一个相似词语、增加一个标点符号,甚至只是修改一个字母都可能使得这些模型的预测结果发生改变,效果大幅度下降.即使是大型语言模型,也会因输入中的微小扰动而改变其预测结果.什么原因导致了这种现象的发生?深度神经网络模型真的如此脆弱吗?如何才能避免这种问题的出现?这些问题近年来受到了越来越多的关注,诸多有影响力的工作都不约而同地从不同方面讨论了自然语言处理的鲁棒性问题.在本文中,我们从自然语言处理任务的典型范式出发,从数据构建、模型表示、对抗攻防以及评估评价等四个方面对自然语言处理鲁棒性相关研究进行了总结和归纳,并对最新进展进行了介绍,最后探讨了未来的可能研究方向以及我们对自然语言处理鲁棒性问题的一些思考.

    自然语言处理鲁棒性深度学习预训练语言模型对抗攻防

    决策树码率自适应算法的无数据蒸馏框架

    黄天驰李朝阳张睿霄李文哲...
    113-130页
    查看更多>>摘要:码率自适应(Adaptive Bit-Rate,ABR)算法是流媒体视频传输中至关重要的技术.该算法根据当前网络情况和播放状态等因素,为下一个视频块选择合适的码率,以确保用户获得良好的体验质量(QoE).其中,基于学习的ABR算法因其不依赖传统模型和从头学习策略的特点,表现出良好的性能,并逐渐取代需要繁琐调优的启发式ABR算法,成为研究领域的热点.然而,这些算法使用神经网络推理,导致模型参数较多,整体计算量较大,使得在实际场景中难以部署.因此,以往的研究提出了决策树蒸馏方案,即使用轻量级的决策树来提取基于学习的ABR算法的专家策略,并在线上部署这些决策树.然而,本文的实验结果表明,过去的蒸馏框架忽略了训练环境对蒸馏后策略的影响,导致策略的泛化能力较差.因此,本文提出了一种名为NIA(data-free Network-environmental Imitation-based rate Adaptation framework)的新型无数据蒸馏框架,用于生成具有更好泛化性能的决策树ABR算法.NIA通过网络环境生成模块构建多个人工网络环境,并在每次迭代训练前使用环境选择模块来选择适合的网络场景,然后与该场景进行交互,利用基于学生驱动的模仿学习算法完成决策树的蒸馏过程.本文还设计了完整的评测平台测试NIA的性能.实验表明,NIA在各种带宽数据集上展现出良好的QoE性能和泛化性能:(1)相较于启发式算法,在QoE指标上提升了 1%~46%;(2)与以往的决策树蒸馏方案相比,在低带宽场景下表现相当,但在高带宽场景下提升了近1倍;(3)总体性能接近甚至超过基于学习的算法(即专家策略)的表现.

    流媒体码率自适应算法无数据蒸馏

    基于二级时空分桶的伴随轨迹查询

    王晨旭汪谨权杨鑫
    131-147页
    查看更多>>摘要:随着移动传感器设备的普及,人们能够采集到的位置数据越来越多,轨迹数据的规模也越来越庞大.从大规模时空数据中查找与指定轨迹最相似的前k条轨迹一直是时空大数据挖掘的重要挑战之一.现有的相似轨迹查询方法大都包括三个阶段:(1)对海量的离线轨迹数据建立索引;(2)基于索引结构从已知轨迹集中查询与指定轨迹相似的候选轨迹;(3)计算指定轨迹与候选轨迹之间的精确相似度并返回相似度最大的前k条轨迹.但大多数现有方法对轨迹进行聚类索引时不能有效利用时间和空间信息,导致时间相似度不高的轨迹也会被划分到相同的索引项上,最终影响查询的准确性和效率.此外,现有的时空轨迹相似度计算方法存在大量的无效运算,使得相似轨迹的查询效率整体较低.针对当前伴随轨迹查询方法对时间与空间信息利用不充分的问题,本文提出一种新的二级时空分桶索引结构,首先将每条轨迹数据按照时间滑动窗口划分为若干带有时间槽信息的子轨迹,在时间上对轨迹进行一级索引聚类;在此基础上对在相同时间槽内的子轨迹进行二级空间索引聚类,利用哈希算法将具有连续相同位置点的子轨迹映射到同一时空分桶中.与已有索引方法相比,该方法对不同轨迹在索引时具有更好的区分度,查询时的筛选条件更为严格,有效降低了候选轨迹集的规模.针对现有轨迹相似度计算方法效率低下的问题,提出一种基于时差约束的轨迹相似度计算方法.利用轨迹之间的时差排除大量不必要的位置比较运算,将轨迹相似度的计算复杂度控制在线性级别,大大提高了计算效率,同时为过滤伴随轨迹查询过程中的无效计算,对基于时差约束的轨迹相似度计算方法进行变体得到一种上下界过滤方法,最大限度地避免了无效计算.最后,在4个真实的大规模轨迹数据集上对所提方法进行实验验证,实验结果表明所提方法的轨迹查找效率是已知最好方法的9~20倍,证明了算法的有效性.

    二级时空索引轨迹相似度计算伴随轨迹查询

    大规模图神经网络研究综述

    肖国庆李雪琪陈玥丹唐卓...
    148-171页
    查看更多>>摘要:图神经网络凭借其处理非欧氏空间数据及其复杂特征方面的优越性受到了大量的关注,并且被广泛应用于推荐系统、知识图谱、交通道路分析等场景中.面对大规模数据,图结构的不规则性、节点特征的复杂性以及训练样本之间的依赖性对图神经网络模型的计算效率、内存管理以及分布式系统中的通信开销造成了巨大的压力.为应对和缓解以上问题,研究者从应用场景、算法模型、编程框架和硬件结构等多个层面对其进行了优化.本文主要回顾和总结了算法模型及编程框架方面的优化,为读者了解面向大规模数据的图神经网络采样算法以及框架优化相关工作提供帮助,为未来算法-框架协同优化奠定基础.具体来说,本文首先简要介绍图神经网络模型中的消息传递机制,分类介绍常见的图神经网络模型,并分析其在大规模数据训练中面临的困难和挑战;然后对面向大规模数据的图神经网络算法模型进行分类总结和分析,包括基于节点、边和子图的采样算法;接着介绍图神经网络编程框架加速的相关进展,主要包括主流框架的介绍以及优化技术的分类总结和分析;最后对未来面向大规模数据的图神经网络研究进行展望.

    图神经网络大规模数据算法优化框架加速

    MMCUP:融合多模态信息的代码注释自动更新方法

    刘诗凡崔展齐陈翔李莉...
    172-189页
    查看更多>>摘要:良好的代码注释对于程序维护有着重要价值.但在实际开发过程中,开发人员经常会在更改代码后忽略更新相应的代码注释,导致更新后的代码和注释不一致,对软件可维护性造成影响.现有注释更新方法在进行注释更新时,通常仅将代码视为普通文本进行处理,忽视了代码结构信息.为此,本文提出了一种融合多模态信息的代码注释更新方法MMCUP(Multi-Modal Comment UPdating).MMCUP使用了旧代码注释、代码编辑序列和AST差异序列三种模态的信息来训练基于Transformer架构的模型,以对注释进行更新.实验结果表明,MMCUP在Accuracy、Recall@5等指标上相较于CUP和HatCUP等方法至少提高了 5.8%和4.4%.

    代码注释更新程序理解代码-注释共同演化深度学习序列到序列模型

    编码孔径快照光谱成像重构算法综述

    马祥天王立志黄华
    190-212页
    查看更多>>摘要:光谱图像含有丰富的空间和光谱信息,能够反映目标的组成、结构和材料特性,在航天遥感、医疗诊断和机器视觉等领域具有重要的应用价值.近年来,光谱成像技术作为热点研究领域受到广泛关注.传统光谱成像技术采用沿空间维度或光谱维度扫描的方式,依次获取待测物体表面的光谱信息.由于曝光时间较长,传统光谱成像技术不适用于拍摄动态场景.编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging,CASSI)是光谱成像的前沿技术方案,能够从单次曝光中快速获取动态场景的光谱图像,其包括两个阶段:对高维光谱图像的"编码降维采集"和对低维观测图像的"解码升维重构".CASSI的早期研究聚焦于"编码降维采集",通过物理系统设计提升图像编码的有效性,包括编码模板设计和双相机系统设计.目前,CASSI的"编码降维采集"物理系统趋于稳定,其"解码升维重构"决定了光谱成像的质量和效率.本文综述CASSI的重构算法.首先介绍CASSI的物理系统和前向模型,详细描述物理系统的组成元件和硬件参数,推导CASSI前向模型的数学表达;其次梳理CASSI重构的特点和挑战,其挑战主要存在于系统前向模型、先验表示模型、算法灵活性、算法复杂度、实物数据集等方面;之后重点归纳重构算法的研究现状,包括基于优化模型的重构算法和基于深度学习的重构算法.基于优化模型的重构算法利用凸优化模型求解线性逆问题,结合平滑、稀疏、低秩等手工设计的先验表示模型降低逆问题的欠定性;基于深度学习的重构算法利用数据驱动的方式建立先验表示模型,结合端到端全网络、深度展开、即插即用等框架求解重构图像.接着比较主流算法的重构质量和计算效率,以峰值信噪比、结构相似度、光谱角制图为重构质量的评价指标,以模型参数量、浮点计算量为计算效率的评价指标.最后讨论现有工作的不足和未来研究趋势,指出当前仍未解决的领域痛点,展望进一步的研究方向,为本领域开拓创新提供参考.

    快照光谱成像编码孔径图像重构优化模型深度学习