首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    联邦学习开源框架综述

    林伟伟石方曾岚李董东...
    1551-1580页
    查看更多>>摘要:近年来,联邦学习作为破解数据共享壁垒的有效解决方案被广泛关注,并被逐步应用于医疗、金融和智慧城市等领域.联邦学习框架是联邦学习学术研究和工业应用的基石.虽然Google、OpenMined、微众银行和百度等企业开源了各自的联邦学习框架和系统,然而,目前缺少对这些联邦学习开源框架的技术原理、适用场景、存在问题等的深入研究和比较.为此,根据各开源框架在业界的受众程度,选取了目前应用较广和影响较大的联邦学习开源框架进行深入研究.针对不同类型的联邦学习框架,首先分别从系统架构和系统功能 2个层次对各框架进行剖析;其次从隐私机制、机器学习算法、计算范式、学习类型、训练架构、通信协议、可视化等多个维度对各框架进行深入对比分析.而且,为了帮助读者更好地选择和使用开源框架实现联邦学习应用,给出了面向 2个不同应用场景的联邦学习实验.最后,基于目前框架存在的开放性问题,从隐私安全、激励机制、跨框架交互等方面讨论了未来可能的研究发展方向,旨在为开源框架的开发创新、架构优化、安全改进以及算法优化等提供参考和思路.

    联邦学习开源框架模型训练机器学习大数据

    基于适应性自训练的少样本关系抽取建模

    陈洪辉郑建明蔡飞韩毅...
    1581-1591页
    查看更多>>摘要:关系抽取(relation extraction,RE)是自然语言处理中的一项基础任务,可以支撑许多下游任务,例如对话生成和机器阅读理解等.在现实生活中,由于新关系类别不断涌现,人工标注的成本和速度无法满足传统基于有监督学习的关系抽取模型的训练要求.面对这种现实挑战,神经雪球提出一种自助采样的方法,通过对有限标注数据的信息迁移,不断为无标注数据打上标签,增加标注数据量,从而提升模型分类性能.然而,固定的阈值选择以及同等对待入选的无标注数据使得神经雪球模型容易受到噪声数据的影响.为了解决这 2个缺陷,基于适应性自训练的关系抽取(adaptive self-training relation extraction,Ada-SRE)模型由此提出.具体地,Ada-SRE基于元学习的思想提出自适应阈值模块,能够为每个关系类别提供合适的阈值选择.另外,Ada-SRE还提出基于梯度反馈的赋权策略,为每个入选的示例提供相应的权重,避免噪声数据的干扰.实验结果表明,相比于神经雪球模型,Ada-SRE有更好的关系抽取能力.

    自训练关系抽取梯度反馈少样本学习元学习

    基于在线集成的概念漂移自适应分类方法

    郭虎升丛璐高淑花王文剑...
    1592-1602页
    查看更多>>摘要:针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE).一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性.实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能.

    流数据概念漂移在线集成增量学习自适应模型

    一种新的半监督归纳迁移学习框架:Co-Transfer

    文益民员喆余航
    1603-1614页
    查看更多>>摘要:在许多实际的数据挖掘应用场景,如网络入侵检测、Twitter垃圾邮件检测、计算机辅助诊断等中,与目标域分布不同但相关的源域普遍存在.一般情况下,在源域和目标域中都有大量未标记样本,对其中的每个样本都进行标记是件困难的、昂贵的、耗时的事,有时也没必要.因此,充分挖掘源域和目标域中标记和未标记样本来解决目标域中的分类任务非常重要且有意义.结合归纳迁移学习和半监督学习,提出一种名为Co-Transfer的半监督归纳迁移学习框架.Co-Transfer首先生成 3个TrAdaBoost分类器用于实现从原始源域到原始目标域的迁移学习,同时生成另外 3个TrAdaBoost分类器用于实现从原始目标域到原始源域的迁移学习.这 2组分类器都使用从原始源域和原始目标域的原有标记样本的有放回抽样来训练.在Co-Transfer的每一轮迭代中,每组TrAdaBoost分类器使用新的训练集更新,其中一部分训练样本是原有的标记样本,一部分是由本组TrAdaBoost分类器标记的样本,还有一部分则由另一组TrAdaBoost分类器标记.迭代终止后,把从原始源域到原始目标域的 3个TrAdaBoost分类器的集成作为原始目标域分类器.在UCI数据集和文本分类数据集上的实验结果表明,Co-Transfer可以有效地学习源域和目标域的标记和未标记样本从而提升泛化性能.

    半监督学习迁移学习多任务学习双向迁移集成学习

    基于双生成器网络的Data-Free知识蒸馏

    张晶鞠佳良任永功
    1615-1627页
    查看更多>>摘要:知识蒸馏(knowledge distillation,KD)通过最大化近似输出分布使"教师网络"指导"学生网络"充分训练,成为大规模深度网络近端迁移、部署及应用的重要技术.然而,隐私保护意识增强与传输问题加剧使网络训练数据难以获取.如何在Data-Free的自由环境下,保证压缩网络准确率成为重要的研究方向.Data-Free学生网络学习(data-free learning of student networks,DAFL)模型,建立"教师"端生成器获得与预训练网络分布近似的伪数据集,通过知识蒸馏训练"学生网络".然而,该框架中生成器构建及优化仍存在 2个问题:1)过度信任"教师网络"对缺失真实标签伪样本的判别结果,同时,"教师网络"与"学生网络"优化目标不同,使"学生网络"难以获得准确、一致的优化信息;2)仅依赖于"教师网络"训练损失,导致数据特征多样性缺失,降低"学生网络"泛化性.针对这2个问题,提出双生成器网络架构DG-DAFL(double generators-DAFL),分别建立"教师"与"学生"端生成器并同时优化,实现网络任务与优化目标一致,提升"学生网络"判别性能.进一步,增加双生成器样本分布差异损失,利用"教师网络"潜在分布先验信息优化生成器,保证"学生网络"识别准确率并提升泛化性.实验结果表明,该方法在Data-Free环境中获得了更为有效且更鲁棒的知识蒸馏效果.DG-DAFL方法代码及模型已开源:https://github.com/LNNU-computer-research-526/DG-DAFL.git.

    深度神经网络知识蒸馏无数据环境知识蒸馏对抗生成网络生成器

    基于频率-时间扩张密集网络的语音增强方法

    黄翔东陈红红甘霖
    1628-1638页
    查看更多>>摘要:含噪条件下的语音增强技术是语音信号领域的重要研究方向之一,该技术对于提升语音视频通话的质量、提高人机交互和语音识别的性能具有重要作用.为此,提出了基于扩张卷积和密集连接的语音增强网络结构,通过学习语音时频谱的频率、时间轴的上下文信息,有效提高了网络的特征表达能力.具体来说,所提结构将扩张卷积融入到时间、频率处理的基础单元中,以确保在频率方向和时间方向上均可获得足够大的感受野,提取出深层语音特征;同时,密集连接被应用到这 2个基础单元的级联结构中,由此可避免多处理模块级联带来的信息丢失,从而增强特征利用效率.实验结果表明所提出的语音增强网络在语音质量客观评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)以及各类主观平均意见方面的总体评分,相比于现有的各类语音增强模型,均居于领先水平.此外,所提网络对各种含噪条件的泛化能力也在实验中得以评估.

    语音增强扩张卷积密集连接深度学习上下文信息

    基于跨维度协同注意力机制的单通道语音增强方法

    康宏博冯雨佳台文鑫蓝天...
    1639-1648页
    查看更多>>摘要:近年来,卷积神经网络在语音增强任务中得到了广泛的应用.然而,目前广泛使用的跳跃连接机制在特征信息传输时会引入噪声成分,从而不可避免地降低了去噪性能;除此之外,普遍使用的固定形状的卷积核在处理各种声纹信息时效率低下,基于上述考虑,提出了一种跨维度协同注意力机制和形变卷积模块的端到端编-解码器网络CADNet.具体来说,在跳跃连接中引入跨维度协同注意力模块,进一步提高信息控制能力.并且在每个标准卷积层之后引入形变卷积层,从而更好地匹配声纹的自然特征.在TIMIT公开数据集上进行的实验验证了所提出的方法在语音质量和可懂度的评价指标方面的有效性.

    语音增强自注意力跨维度协同注意力形变卷积跳跃连接

    基于句法增强的细粒度情感三元组抽取方法

    刘欣逸宁博王明杨超...
    1649-1660页
    查看更多>>摘要:属性级情感三元组抽取(aspect sentiment triplet extraction,ASTE)任务主要是从句子中检测出属性词及其对应的评价词和情感倾向,然而当抽取多词属性词和评价词时,无法准确地抽取出全部的单词;当面对重复的属性词和评价词时,以往的研究很难学习到"属性词-评价词"词对之间所有的关联关系.为解决这些问题,提出了一种基于句法增强的多任务学习框架,来解决端到端的情感三元组抽取任务.句子中的句法结构反映的是句法属性和依赖关联信息,这对抽取任务和情感分类任务有积极作用.该方法是利用依存句法嵌入图卷积网络充分挖掘句法特征,并将其传递到属性词抽取、评价词抽取和情感分析这3个子任务中,实现了句法信息与多任务联合学习框架的融合.在情感分析任务的 4个英文数据集和 1个中文数据集上对模型进行了评估,实验结果表明,提出的方法是有效的且明显优于其他的基线模型,同时对具体案例进行分析,证明该方法一定程度上解决了多词和重复词的问题.

    情感分析三元组抽取句法依存树图卷积网络深度学习

    HyperTree:高并发B+树索引加速器

    吴婧雅卢文岩鄢贵海李晓维...
    1661-1677页
    查看更多>>摘要:B+树是关系型数据库中用来加速查询的常用索引结构,通过构建平衡树维护关键属性的顺序.索引提升了数据库查询性能,但其严格的有序关系增加了数据库表的维护开销.特别是在大数据场景下,数据量激增使得索引查询和维序性能进一步下降.如何平衡B+树的查询和维序性能,以及在大数据场景下提升索引查询和维序的效率,对提升索引系统性能具有重要意义.由此设计了一种专用的B+树索引加速系统,对存储和计算进行协同优化,均衡提升索引查询和维序性能.利用内存突发读写高带宽的特性设计规则的树和节点存储格式以提升内存带宽利用效率,设计高效的同构计算架构和多数据通道以提升索引操作并行度.同时设计解耦合的子树结构缓解索引维护时的树读写冲突.实验结果表明,相比于CPU,B+树索引加速系统能够提升系统查询性能超过6.84倍,提升索引维序性能提升超过29.14倍.

    B+树现场可编程门阵列加速器高吞吐量高并发数据库查询

    针对gem5 指令集实现及其功能测试的自动代码生成

    赵紫微涂航刘芹李莉...
    1678-1691页
    查看更多>>摘要:在嵌入式领域,计算机系统模拟器是研究与原型开发的重要工具.对于采用解释执行的模拟器,其CPU模型的译码过程会影响性能,如何提升译码过程的性能是提高仿真效率的关键问题之一.此外,对于无标准测试集的指令集来说(例如自定义指令),手动编写指令功能测试的开发效率较低,并且其与实现译码过程所需的指令信息基本相同.为解决上述问题,提出一个代码生成方案,输入一份指令集描述,输出针对gem5优化后的指令集实现代码和功能测试代码.首先,扩展gem5的指令集描述语言,将其分为编码描述、功能描述和测试描述.其次,针对gem5优化译码决策树构建算法,并为gem5生成译码模块代码、指令集实现代码和指令功能测试用例.最后,以Cortex-M3指令集为例与原方案相比,总生成时间减少约64%,编译后的可执行文件代码大小减少约407 KB,性能提升约13%,并且能够提高开发效率.

    代码生成指令集译码模拟器功能测试