首页期刊导航|计算机学报
期刊信息/Journal information
计算机学报
计算机学报

高文

月刊

0254-4164

cjc@ict.ac.cn

010-62620695

100190

中国科学院计算技术研究所(北京2704信箱)

计算机学报/Journal Chinese Journal of ComputersCSCD北大核心CSTPCDEI
查看更多>>本刊是中国计算机领域的有代表性学术刊物,作为一种科学研究档案,代表了计算机领域各个研究阶段的水平。本刊被《工程索引》(美国)、《科学文摘》(英国)、《数学文摘》(美国)、《科技文献速报》(日本)、《文摘杂志》(俄罗斯)等多种权威系统收录。是科技部科技信息研究所科技论文统计源期刊、中国科学引文数据库来源期刊。
正式出版
收录年代

    基于循环神经网络和生成式对抗网络的口令猜测模型研究

    汪定邹云开陶义王彬...
    1519-1534页
    查看更多>>摘要:深度学习技术的进展为提高口令猜测效率提供了潜在的新途径.目前,已有研究将循环神经网络(Recurrent Neural Network,RNN)、生成式对抗网络(Generative Adversarial Network,GAN)等深度学习模型运用于设计口令猜测模型.本文基于RNN模型、概率上下文无关文法(Probabilistic Context-Free Grammar,PCFG)与长短期记忆网络(Long Short-Term Memory,LSTM)的混合模型(简称PL模型),提出采用RNN来代替PL模型中的LSTM的思想,将PCFG与RNN在模型层面进行融合,设计了 PR模型.为降低猜测模型对大训练样本的依赖,进一步提出了 PR+模型,即采用RNN来生成字母序列,实现对口令字母段的填充.基于4个大规模真实口令数据集的实验结果显示,PR模型的破解率略高于PL模型,且始终显著高于传统的PCFG(107量级猜测数下)和Markov模型(106量级猜测数下),并且PR模型的训练效率远优于PL模型.鉴于不同口令模型生成口令猜测的特性不同,将不同模型生成的猜测集组合来生成新的口令猜测集,并基于4个大规模真实口令数据集对不同组合方法进行了对比.尽作者所知,我们首次证实了在相同猜测数下(107~108量级猜测数),组合不同类型模型所生成口令猜测集的破解率通常高于单一猜测集.本文研究显示,GAN模型在猜测数为3.6×108时,破解率仅为31.41%,这表明GAN模型的口令破解效率劣于传统基于概率统计的模型(如PCFG模型和Markov模型)和基于RNN的口令猜测模型,并进一步指出了GAN模型表现不佳的原因.

    口令猜测攻击深度学习循环神经网络生成式对抗网络

    InterTris:三元交互的领域知识图谱表示学习

    张祎孟小峰
    1535-1548页
    查看更多>>摘要:在新事物不断涌现,且事物之间联系不断丰富的时代背景下,作为一项新生技术,知识图谱旨在对现实世界中概念或实体及其之间的联系进行建模.由于直接来自于现实世界,知识图谱中的实体和关系往往以符号化形式表示.要实现进一步的价值挖掘,进行知识图谱计算,就需要将符号化表示转换为数值形式.知识图谱表示学习技术应运而生.目前,知识图谱表示学习已得到很大发展.依据应用领域不同,可以将知识图谱划分为通用领域和特定领域两种.已有表示学习模型多面向通用领域构建,且在通用领域的样本数据上进行验证.如果将这些模型运用到特定领域,就会面临新的数据分布挑战.为解决特定领域的知识图谱表示学习问题,本文以栖息地知识图谱和用户消费行为知识图谱为例进行了数据特征分析,发现特定领域知识图谱的数据特征不仅与通用领域不同,且不同领域之间的分布也各有特点.所以,我们从比数据分布更抽象的角度,即基于知识图谱构建语义联系的本质特征,以三元组为建模粒度,对头实体、关系和尾实体之间的交互作用进行了充分拟合,提出InterTris模型.同时,基于家谱领域的公共知识图谱Kinship、微生物领域的酶知识图谱样本ES、微生物领域的栖息地知识图谱样本LiveIn和电子商务领域的用户消费行为知识图谱样本UserAct共计四个数据集,以部分较优的转换模型和组合模型为基线,通过链接预测和三元组分类两组实验,本文发现InterTris在四个数据集上都取得了整体最优的效果,充分证明了在三元组粒度进行交互建模的必要性和合理性.

    知识图谱表示学习特定领域三元交互链接预测三元组分类

    深度记忆网络研究进展

    刘建伟王园方罗雄麟
    1549-1589页
    查看更多>>摘要:近年来,随着深度神经网络的快速发展,它在越来越多的领域中有了广泛的应用.深度神经网络模型在处理有序列依赖关系的预测问题时,需要利用之前学习到的信息进行记忆.在一般的神经网络模型中,数据经过多个神经元节点传输会损失很多关键的信息,因此需要具有记忆能力的神经网络模型,我们把它们统称为记忆网络.本文首先介绍了记忆网络的基础模型,包括循环神经网络(RNN)、长短期记忆神经网络(LSTM)、神经图灵机(NTM)、记忆神经网络(MN)和变送器(Transformer).其中,RNN和LSTM是通过隐单元对前一时刻信息的处理来记忆信息,NTM和NM是通过使用外部存储器来进行记忆,而变送器使用注意力机制来选择性记忆.本文对这些模型进了对比,并分析了各个记忆方法的问题和不足.然后根据基础模型的不同,本文对常见的记忆网络模型进行了系统的阐述、分类和总结,包括其模型结构和算法.接着介绍了记忆网络在不同领域和场景下的应用,最后对记忆网络的未来研究方向进行了展望.

    循环神经网络长短期记忆网络记忆网络神经图灵机自然语言处理

    多目标进化算法性能评价指标研究综述

    王丽萍任宇邱启仓邱飞岳...
    1590-1619页
    查看更多>>摘要:多目标进化算法根据性能评价指标衡量其优劣,主要从算法所求解集的质量、算法求解效率以及算法鲁棒性三方面来评价,并侧重于解集的质量,现有的相关工作缺乏对评价指标数学性质的分析.本文将评价指标按性能标准分为四类:计数指标、收敛性指标、多样性指标、综合性指标,其中计数指标统计符合指标要求的解个数或比例,收敛性指标衡量解集与参考集的贴近程度,多样性指标衡量解集分布的均匀程度与求解极端值的能力,并按性质类型分为分布性指标、延展性指标和同时衡量前两者的指标,综合性指标同时衡量收敛性和多样性,并按适用范围分为通用指标和专用指标.本文对比分析了 77种指标的参考集、比较函数以及时间复杂度,并从高维目标适应性、离群点敏感性、参考集合理性、指标值最优性四个方面对部分指标进行了分析,为研究者们选择合适的指标提供方法,以应对不同环境下的复杂问题.最后展望了多目标进化算法性能评价有待进一步研究的方向.

    多目标优化进化算法评价指标收敛性多样性

    基于排序的监督离散跨模态哈希

    李慧琼王永欣陈振铎罗昕...
    1620-1635页
    查看更多>>摘要:近年来,随着信息技术的发展,图像、文本、视频、音频等多媒体数据呈现出快速增长的趋势.当处理大量数据时,某些传统检索方法的效率可能会受到影响,并且无法在可接受的时间内获得令人满意的准确性.此外,海量的数据还导致了巨大的存储消耗问题.为了解决上述问题,哈希学习被提出.现有的哈希学习方法首先为数据生成二进制哈希码,并且在学习中让原本相似的数据有相似的哈希码,让不相似的数据有不同的哈希码.然后,在学到的哈希码空间中,通过异或操作进行快速的相似性比较.通过用二进制哈希码代替数据原始的高维特征,可以达到显著降低存储成本的目的.基于哈希学习高效索引和快速查询的特点,其在跨模态检索领域受到了广泛的关注.但是目前的跨模态哈希方法面临着以下几个问题:(1)大多数方法都尝试保持样本间的成对相似性,而忽视了样本间的相对相似性,即样本的排序信息,但排序信息对检索有很重要的作用,因而导致这些方法效果并非最优;(2)许多基于成对相似性的哈希检索方法的时间复杂度为O(n2),无法直接扩展到大规模数据集上,具有一定的局限性;(3)为了简化离散求解问题,目前很多方法采用松弛策略来学习哈希码的近似解,但这种策略会引入较大的量化误差.为了解决以上问题,我们提出了一种基于排序的监督离散跨模态哈希方法(简称为RSDCH).该方法由排序信息学习和哈希学习两步骤组成.在排序信息学习阶段,我们通过嵌入数据的流形结构和语义标签来学习一个具有排序信息的得分矩阵.在哈希学习阶段,我们通过保持学到的排序信息来生成训练样本的哈希码并学出对应的哈希函数.为了让模型能够更好地扩展到大规模数据集,我们使用了锚点采样策略,以获得可接受的且与训练样本数成线性关系的时间复杂度.为了学到高质量的哈希码表示,我们设计了两种有效的相似性保持策略.除此之外,为了避免松弛求解策略引入的量化误差,我们设计了 一种交替迭代的优化算法来离散地学习哈希码.我们在MIRFlickr-25K及NUS-WIDE这两种广泛使用的多标签数据集上进行了对比实验.结果表明,本文提出的方法在平均精确率均值(MAP)、归一化折损累计增益(NDCG)、精确率-召回率曲线(Precision-Recall Curve)等方面均优于现有的几种跨模态哈希方法.通过消融实验,我们验证了 RSDCH模型中各个模块的必要性和有效性.此外,我们还通过额外的实验测试了模型的收敛性、参数敏感性和训练效率,进一步验证了 RSDCH模型的有效性.

    跨模态检索哈希学习排序哈希离散优化相似性保持

    远程监督关系抽取综述

    杨穗珠刘艳霞张凯文洪吟...
    1636-1660页
    查看更多>>摘要:远程监督可以为关系抽取任务自动构建数据集,缓解了人工构建数据集的压力和成本,为自动关系抽取的实现奠定基础,然而使用远程监督方法构建的数据集存在错误标注以及长尾问题,严重影响关系抽取性能.目前,远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来,随着深度学习技术的发展,这两个领域的研究工作也迎来了新一轮的机遇与挑战.本文对近几年远程监督关系抽取的研究进展进行综述,针对基于深度学习的远程监督关系抽取任务定义常用工作流,其中包括样本降噪、外部信息融合、编码器和分类器.本文根据不同的模块将已有的研究成果进行分类和梳理,分析比较主要方法,整理其中的关键问题,介绍已有的解决方案和相关数据集,总结远程监督关系抽取任务所用评测指标与评估方式,展望未来研究趋势.

    关系抽取信息抽取远程监督降噪长尾现象错误标注

    自主机器人软件工程的研究综述

    毛新军
    1661-1678页
    查看更多>>摘要:自主机器人是一类运行在开放环境下具有自主行为的复杂信息物理系统,软件是其核心和关键,提供计算、控制、决策等多样化功能,负责驱动机器人安全、灵活和高效地运行.自主机器人软件的开发面临着来自系统自身、外部环境和现实约束等复杂性带来的诸多挑战.自主机器人软件工程是一个多学科交叉的新兴研究领域,旨在为自主机器人软件的开发、运行和维护提供工程化的方法、技术和平台支持,其研究与实践近年来引起学术界和工业界的高度关注并取得了长足进步.本文围绕三个方面的研究问题,综述了自主机器人软件工程的研究与进展:(1)深入分析了自主机器人软件的特点及其开发复杂性;(2)系统概括了自主机器人软件工程的现有研究方向及已有成果;(3)详细讨论了自主机器人软件工程当前研究的局限性及未来的机遇.

    自主机器人软件工程信息物理系统开放环境

    物联网大数据场景下的分布式哈希表适用条件分析

    安彦哲朱妤晴王建民
    1679-1695页
    查看更多>>摘要:针对"新基建"带来的物联网大数据管理真实应用场景中的挑战,本文对当前最优实践所用的大规模数据管理系统的核心——分布式哈希表(Distributed Hash Table,DHT),第一次基于极高写入负载和数据流量两个要素,进行了适用条件的理论推导分析.面向存储空间、带宽和时间三方面的限制关系,从理论上分析了写入负载和联网带宽对DHT负载再均衡条件的影响,并推导出DHT负载再均衡设计仅适用于一定规模的物联网数据管理场景,而不适用于大规模物联网数据管理的结论.利用了基于DHT的业界常用系统Cassandra的物联网数据负载实验以及系统级模拟器的大量仿真实验结果验证了理论推导结果的有效性.基于理论结果对真实案例进行了应用分析,表明本文的理论结果可用于分析解决当前基于DHT系统支撑物联网数据负载出现的问题,并可用于分析和指导物联网数据管理系统的设计.

    物联网数据管理分布式哈希表负载均衡时序数据时序数据库

    分布式的增量式张量Tucker分解方法

    杨克宇高云君陈璐葛丛丛...
    1696-1713页
    查看更多>>摘要:随着社交网络、电商系统、移动终端设备的快速发展,海量且高维的数据正以前所未有的速度不断地增长和积累.高维数据可以自然地表示为张量.张量的Tucker分解方法是一种常用且经典的高维数据分析机器学习方法,被广泛地应用于推荐系统、图像压缩、计算机视觉等多个领域.然而,传统的张量分解方法大多只能处理静态的数据,并不适用于动态增长的数据.当处理不断增长的数据时,传统方法大多只能低效地重新开始计算,以完成张量分解.针对增量式数据对传统张量分解方法带来的挑战,本文提出了一种分布式的增量式张量Tucker分解方法DITTD,首次解决了海量高维且动态增长数据上高效的分布式张量Tucker分解问题.该方法首先根据增量数据相对原始数据的位置关系对其进行分类处理.为了实现分布式节点的负载均衡,本文指出张量的最优划分是NP-难问题,并使用启发式方法以实现尽可能均匀的张量划分.为了避免张量Tucker分解的中间结果爆炸问题,本文提出了一种新颖的增量式张量Tucker分解计算方法.该方法减少了中间结果的计算和网络传输通信量,以提升分布式的增量式张量Tucker分解效率.最后,本文在真实与合成数据集上进行了大量的实验.实验结果验证了本文方法的运行效率比基准方法提升了至少1个数量级,并具有良好的可扩展性.

    张量Tucker分解分布式增量式Spark

    一种验证分布式协议活性属性容错机制的模型检测方法

    陆超逸聂长海张成志
    1714-1731页
    查看更多>>摘要:云计算是一种通过网络以服务的方式向用户提供按需收费的计算资源的模式,目前企业逐渐将业务部署、数据处理转移到云计算平台上进行.因为可扩展性、性能等各方面需求,所以云平台部署在分布式系统上.由于分布式系统采用大量的商品机通过复杂的结构进行搭建,因此分布式系统中组件发生故障是无法避免的.为了提高分布式系统的可靠性,技术人员在开发分布式系统时为其设计了容错机制.为了保证容错机制在分布式系统发生故障时能真正有效地工作,故障注入是检验容错机制的方法之一,通过人为地向系统中注入特定的故障,观察系统的行为并检验容错机制是否正确工作.由于分布式系统的并发特性,传统软件测试方法无法对其进行完全测试,近年来越来越多地使用模型检测技术来对分布式系统进行验证.现有的模型检测技术注重对分布式系统的安全性属性和活性属性的检测,忽略了对容错机制尤其是活性属性容错机制的检测,所以如何验证系统的活性属性容错机制是目前面临的挑战.采用抽象模型检测方法会引入模型与实际系统不匹配的问题.同时,采用实现级模型检测方法会加剧模型检测中的状态空间爆炸问题.本文提出了一个实现级模型检测工具LTMC(Liveness Properties Fault Tolerance Model Checker),结合故障注入技术对分布式协议的安全性属性与活性属性及其容错机制进行验证.同时,基于分布式系统节点的角色,本文提出了一种对等约减策略PRP(Peer Reduction Policy)对LTMC需要搜索的状态空间进行约减,缓解了状态空间爆炸问题.此外,LTMC通过引入逻辑时钟机制,优先搜索那些更有实际价值的事件执行路径.LTMC能够有目标地在待验证系统运行的特定时刻注入特定的故障,而不依赖于随机故障注入策略;当待验证系统发生改变时,只需要简单地对工具进行轻微的修改;LTMC可以系统地发现分布式协议中指定类型的所有Bug.在本文最后,我们将LTMC应用到ZooKeeper和Cassandra的几个协议中,并与深度优先搜索作对比,可以发现LTMC有3.7~594.4倍的状态空间约减率.

    分布式系统模型检测故障注入活性属性容错机制对等约减策略