首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    基于兴趣函数的多样化Option-Critic算法

    栗军伟刘全黄志刚徐亚鹏...
    3108-3120页
    查看更多>>摘要:Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性.但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能.针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF).该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度.此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力.为了验证算法的有效性和知识迁移能力,分别在 4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验.结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力.

    强化学习时序抽象Option框架兴趣函数Option-Critic算法

    一种基于在线蒸馏的轻量化噪声标签学习方法

    黄贻望黄雨鑫刘声
    3121-3133页
    查看更多>>摘要:利用含有有损标签的噪声数据来训练深度学习模型是机器学习中的研究热点.研究表明深度学习模型训练易受噪声数据的影响而产生过拟合现象.最近,一种将元学习与标签校正相结合的方法能够使模型更好地适应噪声数据以减缓过拟合现象,然而这种元标签校正方法依赖于模型的性能,同时轻量化模型在噪声数据下不具备良好的泛化性能.针对这一问题,本文结合元学习提出一种基于在线蒸馏的轻量化噪声标签学习方法KDMLC(knowledge distillation-based meta-label correction learning),该方法将深度神经网络与多层感知机构成的元标签校正(meta label correction,MLC)模型视为教师模型,对噪声标签进行校正并指导轻量化模型进行训练,同时采用双层优化策略训练并增强教师模型的泛化能力,从而生成更高质量的伪标签用于训练轻量化模型.实验表明,KDMLC在高噪声水平下对比MLC方法准确率提高了 5.50个百分点;同时对CIFAR10数据集使用Cutout数据增强,KDMLC在高噪声水平下对比MLC准确率提升了 9.11个百分点,而在真实噪声数据集Clothing1M上的实验,KDMLC也优于其他方法,验证了KDMLC的可行性和有效性.

    伪标签标签校正元学习知识蒸馏噪声数据

    一种跨区域跨评分协同过滤推荐算法

    于旭彭庆龙詹定佳杜军威...
    3134-3153页
    查看更多>>摘要:传统跨评分协同过滤范式忽视了目标域中评分密度对用户和项目隐向量精度的影响,导致评分稀疏区域评分预测不够准确.为克服区域评分密度对评分预测的影响,基于迁移学习思想提出一种跨区域跨评分协同过滤推荐算法(cross-rating collaborative filtering recommendation algorithm,CRCRCF),相对于传统跨评分协同过滤范式,该算法不仅能有效挖掘辅助域重要知识,而且可以挖掘目标域中评分密集区域的重要知识,进一步提升目标域整体,尤其是评分稀疏区域的评分预测精度.首先,针对用户和项目,分别进行活跃用户和非活跃用户、热门项目和非热门项目的划分.利用图卷积矩阵补全算法提取目标域活跃用户和热门项目、辅助域中全体用户和项目的隐向量.其次,对活跃用户和热门项目分别构建基于自教学习的深度回归网络学习目标域和辅助域中隐向量的映射关系.然后,将映射关系泛化到全局,利用非活跃用户和非热门项目在辅助域上相对较准确的隐向量推导其目标域上的隐向量,依次实现了跨区域映射关系迁移和跨评分的隐向量信息迁移.最后,以求得的非活跃用户和非热门项目在目标域上的隐向量为约束,提出受限图卷积矩阵补全模型,并给出相应推荐结果.在MovieLens和Netflix数据集上的仿真实验显示CRCRCF算法较其他最先进算法具有明显优势.

    协同过滤跨区域跨评分推荐图卷积矩阵补全自教学习深度回归网络受限图卷积矩阵补全

    基于劳资博弈模型的实用查询定价新算法

    王会举黄玮煊岳晓
    3154-3167页
    查看更多>>摘要:在数据要素化的推动下,传统查询定价方法因其前提假设要求过高、灵活动态性支持有限、关键因素考虑不足等问题,面临落地难的巨大挑战.为解决以上问题,创新设计了基于劳资博弈模型的查询定价算法,该算法利用劳资博弈模型对数据交易中参与方进行建模,将数据交易平台和数据买方分别视作工会和用人单位;数据交易平台(工会)负责各交易数据集价值(劳动者工资)公平透明计算,以尽可能促成交易为目标;数据买方根据各数据集估量价值、自身需求和自身预算,决定各数据集购买数量,藉此实现兼顾三方利益的交易数据集定价.实验表明,该算法相比于流行的斯塔克伯格博弈模型,更能兼顾各方利益,更加公平;相比于传统的基于查询的数据定价方法,该定价算法更易落地应用、更具动态灵活性,可以跟随查询结果的变化实现价格的动态调整.该定价算法时间复杂度为O(N)(N为查询相关数据集个数),且具有无套利性.

    查询定价劳资博弈模型数据定价数据交易公平定价

    基于深度学习的查询建议综述

    田萱徐泽洲王子涵
    3168-3187页
    查看更多>>摘要:查询建议是当今搜索引擎必不可少的一个组成部分,它可以在用户输入完整查询前提供查询候选项,帮助用户更准确、更快速地表达信息需求.深度学习技术有助于提升查询建议的准确度,成为近年来推动查询建议发展的主流技术.主要对基于深度学习的查询建议研究现状进行归纳整理与分析对比,根据深度学习应用阶段不同,把其分为生成式查询建议与排名式查询建议 2类,分析其中每种模型的建模思路和处理特征.此外还介绍了查询建议领域常用的数据集、基线方法与评价指标,并对比其中不同模型的技术特点与实验结果.最后总结了基于深度学习的查询建议研究目前面临的挑战与未来发展趋势.

    查询建议深度学习查询自动补全编码器-解码器神经语言模型