首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    基于2阶段集成的多层网络社区发现算法

    赵兴旺张珧溥梁吉业
    2832-2843页
    查看更多>>摘要:社区发现旨在挖掘复杂网络蕴含的社区结构,是复杂网络分析的重要任务之一.然而,现有的社区发现方法大多针对单层网络数据,对现实世界中广泛存在的多层网络数据的研究较少.针对多层网络的社区发现问题,提出了一个基于 2阶段集成的社区发现算法,以提高社区发现结果的准确性和可解释性.首先,在各层分别得到基社区划分;其次以各层社区划分结构信息为主并结合其他各层网络得到的基社区划分中最优的社区划分信息进行局部集成;再次,基于信息熵对各层局部社区划分中各个社区的稳定性进行度量,并通过其他层社区划分结果来对各个局部社区划分的准确性进行评价;最后,基于各个社区以及社区划分的重要性进行全局加权集成得到最终的社区划分结果.在人造多层网络和真实多层网络数据上与已有的多层网络社区发现算法进行了比较分析.实验结果表明,提出的算法在多层模块度、标准化互信息等评价指标上优于已有算法.

    多层网络社区发现加权集成模块度复杂网络分析

    基于中间域语义传导的跨领域文本生成方法

    马廷淮于信荣欢
    2844-2863页
    查看更多>>摘要:在多领域数据的文本生成场景中,不同领域中的数据通常存在差异性,而新领域的引入会同时带来数据缺失的问题.传统的有监督方法,需要目标领域中大量包含标记的数据来训练深度神经网络文本生成模型,而且训练好的模型无法在新领域中取得良好的泛化效果.针对多领域场景中数据差异和数据缺失的问题,受到迁移学习方法的启发,设计了一种综合性的迁移式文本生成方法,减少了不同领域之间文本数据的差异性,同时借助已有领域和新领域之间文本数据上的语义关联性,帮助深度神经网络文本生成模型在新领域上进行泛化.通过在公开数据集上的实验,验证了所提方法在多领域场景下领域迁移的有效性,模型在新领域上进行文本生成时具有较好的表现,对比现有的其他迁移式文本生成方法,在各项文本生成评价指标上均有提升.

    深度神经网络文本生成模型数据分布对齐最大均值差异零次学习语义要素传导

    多层结构化语义知识增强的跨领域命名实体识别

    张文韩刘小明杨关刘杰...
    2864-2876页
    查看更多>>摘要:跨域命名实体识别旨在缓解目标领域标注数据不足的问题.现有方法通常利用特征表示或者模型参数的共享来实现实体识别能力的跨领域迁移,但对文本序列中结构化知识的充分利用仍有所欠缺.基于此,提出了基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型,即通过在多个层级实现对源领域和目标领域文本各自蕴含的结构化表示的对齐来促进实体识别能力跨领域迁移.首先,MSKE-CDNER利用结构特征表示层从不同领域中获取文本的结构化语义知识表示;然后,将获得的结构化语义知识表示通过潜层对齐模块在对应的层级进行结构化对齐,获取结构化的跨领域不变知识,从而提高模型对文本结构化知识的利用;此外,将域不变知识与特定域知识融合,进一步增强模型的泛化能力;最后,分别在 5个英文数据集和特定的跨域命名实体识别数据集上进行实验.结果显示,对比当前跨域模型,MSKE-CDNER的平均性能提高了 0.43%和 1.47%,表明利用特征表示中的结构化知识可以有效提高目标领域的实体识别能力.

    跨域命名实体识别跨领域迁移结构化对齐结构化知识域不变知识

    基于多模态方面术语提取和方面级情感分类的统一框架

    周如朱浩泽郭文雅于胜龙...
    2877-2889页
    查看更多>>摘要:通过方面术语提取和方面级情感分类任务提取句子中的方面-情感对,有助于Twitter,Facebook等社交媒体平台挖掘用户对不同方面的情感,对个性化推荐有重要的意义.在多模态领域,现有方法使用 2个独立的模型分别完成 2个子任务,方面术语提取提取句子中包含的商品、重要人物等实体或实体的方面,方面级情感分类根据给定的方面术语预测用户的情感倾向.上述方法存在 2个问题:1)使用 2个独立的模型丢失了 2个任务之间在底层特征的延续性,无法建模句子潜在的语义关联;2)方面级情感分类 1次预测 1个方面的情感,与方面术语提取同时提取多个方面的吞吐量不匹配,且 2个模型串行执行使得提取方面-情感对的效率低.为解决这 2个问题,提出基于多模态方面术语提取和方面级情感分类的统一框架UMAS.首先,建立共享特征模块,实现任务间潜在语义关联建模,并且共享表示层使得 2个子任务只需关心各自上层的网络,降低了模型的复杂性;其次,模型利用序列标注同时输出句子中包含的多个方面及其对应的情感类别,提高了方面-情感对的提取效率.此外,在这 2个子任务中同时引入词性:利用其中蕴含的语法信息提升方面术语提取的性能;通过词性获取观点词信息,提升方面级情感分类的性能.实验结果表明,该统一框架在Twitter2015,Restaurant2014这 2个基准数据集上相比于多个基线模型具有优越的性能.

    方面术语提取(AE)方面级情感分类(ALSC)统一框架共享特征表示序列标注

    基于FP-tree和MapReduce的集合相似度自连接算法

    冯禹洪吴坤汉黄志鸿冯洋洲...
    2890-2906页
    查看更多>>摘要:利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能不理想.针对这一问题,提出采用频繁模式树FP-tree及其派生结构FP-tree*将数据压缩在内存中计算集合相似度自连接以减小候选集规模.首先设计并讨论基于现有FP-tree*的集合相似度连接计算及其优缺点,提出遍历效率更高的线性频繁模式树结构模型TELP-tree及基于它的算法TELP-SJ(TELP-tree self join),其包括分别面向构建树和遍历树的 2阶段过滤算法,这些算法可以减小树规模和减少树遍历.然后,设计基于MapReduce的并行分布式算法FastTELP-SJ.最后,基于 4组真实应用数据集进行 3组性能比较实验.实验结果表明FastTELP-SJ算法面向高维大规模集合相似度自连接计算时,包括执行时间、内存占用率、磁盘使用量和可扩展性的运行效率最好.

    相似度连接FP树MapReduce框架Jaccard函数集合

    基于多种同构化变换的SLP向量化方法

    冯竞舸贺也平陶秋铭马恒太...
    2907-2927页
    查看更多>>摘要:超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化.将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一.提出SLP的一种扩展方法——SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益.在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估.实验结果表明,SLP-M方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%.

    SIMD扩展自动向量化超字级并行非同构指令序列同构化变换