首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    基于查询编译的SQL执行技术研究进展

    潘青峰徐辰
    1754-1770页
    查看更多>>摘要:信息系统通常会借助数据管理系统来进行数据管理,其中SQL凭借良好的易用性和灵活性一直作为数据管理的主流查询语言,用户将编写的SQL语句交由数据管理系统执行后便可得到查询结果.执行模型的高效与否决定了系统能否快速响应用户的查询请求,现有执行模型主要采用解释执行和编译执行2种方式.解释执行具有良好的拓展性、可维护性等因而被大多数系统采用.不同于解释执行,编译执行为原本需要解释执行的查询生成高效的定制化代码来加速查询,带来的显著性能提升吸引了一众数据管理系统开始实现相应技术.然而,如何针对查询生成其对应的定制化代码是一个复杂的过程,在实现时需要考虑诸多方面,甚至在某些情况下,采用编译执行的查询性能可能还不及传统的火山模型.从概念、技术等角度系统地综述了编译执行技术的研究进展.首先,概述了编译执行的基本概念,对相关术语和背景知识进行了介绍;其次,分别从中间代码生成、中间表示、机器码生成与运行 3个角度介绍了相关技术;最后,结合当前数据管理系统的研究趋势以及近期研究工作展望了编译执行未来的发展方向.

    数据管理系统查询执行代码生成编译器即时编译

    基于空间位置关系的轨迹数据高效降维和查询算法

    巢成蒲非凡许建秋高云君...
    1771-1790页
    查看更多>>摘要:由于新型信息技术的快速发展,社会处于数字化、信息化转型的关键时期,各行业对于以数据库技术为基础的信息系统的需求也日益凸显.基于位置的服务依赖于海量实时生成的轨迹数据,在处理亿万级随时间连续变化的轨迹数据时,降维算法和查询技术一直是研究的关键,通过降低轨迹数据的规模,减少查询操作时处理数据的时间,能有效提升查询的性能,而能否实现高质量、高效率查询对于数据库而言至关重要.提出了面向轨迹数据的均匀网格编码,并在进一步优化后提出非均匀网格降维算法,将轨迹数据的坐标转化为 1维字符串存储,对不符合要求的网格进行合并处理;通过空间位置映射充分保留轨迹数据间复杂的相互关系,并采用范围查询与最近邻查询对降维后的数据进行性能测试.实验使用不同城市真实轨迹数据与模拟生成轨迹数据作为数据集,将提出的均匀网格算法、非均匀网格算法与 3种基准方法进行对比.实验证明,优化后的非均匀网格算法降维后数据的空间位置关系相似度可高达 82.50%,范围查询时间较其他查询时间提升了至少 73.86%,最近邻查询时间提升了至少 52.26%,与其他基准方法相比取得了更好的效果.

    轨迹数据降维算法非均匀网格空间位置关系查询技术

    带拒绝推理的反绎学习方法

    黄宇轩姜远
    1791-1798页
    查看更多>>摘要:近年来,许多研究工作致力于将数据驱动的机器学习和知识驱动的逻辑推理相结合,以提高机器学习的性能.其中,不少工作尝试利用反绎推理,将机器学习与逻辑推理融合到一个框架中.这些方法通过机器学习模型生成伪标记,然后利用反绎推理来修正不一致的伪标记,以更新机器学习模型并多次迭代.然而,反绎中可能会存在错误标记,这些标记会对模型训练产生负面影响且难以被发现.因此提出一种带拒绝推理的反绎学习方法,它同时考虑反绎标记的模型不确定性和推理不确定性,从数据层面和知识层面综合评估反绎结果的可靠性,并通过拒绝部分反绎推理结果来避免不可靠的反绎标记对模型训练的负面影响.实验表明,提出的方法可以减少错误反绎标记的比例、加速反绎学习的训练并带来更好的性能.

    反绎学习机器学习逻辑推理反绎推理神经符号学习

    面向不同类型概念漂移的两阶段自适应集成学习方法

    郭虎升张洋王文剑
    1799-1811页
    查看更多>>摘要:大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出"过滤-扩充"两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能.

    流数据概念漂移集成学习漂移类型过滤阶段扩充阶段

    融合角色心理画像的心理健康文本匹配模型

    赵芸刘德喜万常选刘喜平...
    1812-1824页
    查看更多>>摘要:全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务.检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务.与传统检索式社区问答中的文本匹配不同,在匹配支持帖和求助帖时,需要考虑 2种不同层面的匹配准则:语义层面和心理层面.为了解决该问题,提出融合角色心理画像的 2阶段文本匹配模型(two-stage text matching model integrating characters'mental portrait,T2CMP),该模型引入心理特征用于构建角色心理画像,从而辅助模型理解文本心理层面的内容和匹配关系.同时为了提升检索效率以及减少大量负样例带来的噪声问题,将文本匹配任务拆分为 2阶段的序列型子任务.首先针对每条求助帖,使用基于语义的筛选模型甄别出候选支持帖;然后依据用户的角色心理画像,使用多层注意力机制将其与语义信息有效融合,提高模型的总体效果.在MHCQA数据集上的实验结果显示,T2CMP比现有优秀算法拥有更高的F1值.

    文本匹配2阶段模型角色心理健康画像多层注意力机制心理健康信息自助服务

    完全图高阶关系驱动的链接预测

    张惠鹃黄钦阳胡诗彦杨青...
    1825-1835页
    查看更多>>摘要:图卷积网络(graph convolutional network,GCN)因其在处理图数据方面的独特优势而被广泛应用于推荐系统中,它通过利用图中节点之间的依赖关系传播节点属性信息,极大地提高了节点表示的准确度从而提升推荐性能.然而现有基于GCN的推荐方法仍因过平滑问题而难以进行更深层的建模,从而限制了用户与项目间高阶关系的表达.为此,提出了一种基于项目间关系的完全图高阶关系驱动的链接预测(link prediction driven by high-order relations in complete graph,LinkCG)方法.LinkCG通过用户-项目交互图与项目间隐式关联关系全局图组成的异构图预测用户到项目的链接,跳过了中间的用户节点直接利用完全图建模每个用户历史交互的项目间的局部隐式关联关系,获得项目间的高阶关系从而缓解数据稀疏性问题;此外,不同于基于节点嵌入的推荐方法,LinkCG通过赋予项目间的链接权重来表示项目间关系的紧密程度,并根据紧密程度进行链接预测,优化了模型的训练过程.在 3个公开数据集上的实验结果表明,LinkCG作为只包含 2个超参数的非深度学习模型,与一些先进的基于深度学习的基线方法相比提供了更好的性能.在社交关系数据上的应用进一步表明LinkCG能够从用户历史交互项目中获取足够丰富的用户偏好信息.

    推荐系统链接预测完全图高阶关系关联关系

    一种基于特征导向解耦网络结构的滤波器修剪方法

    施瑞文李光辉代成龙张飞飞...
    1836-1849页
    查看更多>>摘要:现有的很多深度神经网络模型剪枝方法需要修改损失函数或在网络中嵌入额外的变量,无法直接受益于预训练网络,而且复杂化了前向推理和训练过程.到目前为止,大部分特征导向的剪枝工作仅利用通道内信息分析滤波器的重要性,使得剪枝过程无法利用通道间的潜在联系.针对上述问题,基于特征导向从通道间的角度考虑滤波器修剪任务,使用几何距离度量通道间的潜在相关性,将滤波器修剪定义为一个优化问题,并引入贪婪策略寻求最优解的近似解.该方法实现了剪枝与网络、剪枝与训练的解耦,从而简化了修剪任务.大量的实验证明了该方法对于各种网络结构都有良好的性能,例如在CIFAR-10数据集上,将VGG-16的参数量和浮点运算量分别降低了 87.1%和 63.7%,并且达到 93.81%的高精度.还使用轻量型网络MobileFaceNets和CASIA-WebFace数据集评估该方法的性能,结果显示使用该剪枝方法后,MobileFaceNets在参数量和浮点运算量分别降低 58.0%和 63.6%的情况下,在LFW上的测试精度仍然达到99.02%,而且推理精度几乎没有损失(源代码发布在:https://github.com/SSriven/FOAD).

    深度学习模型压缩模型剪枝神经网络加速几何距离

    基于随机块模型的社区隐藏统一框架

    刘栋刘侠贾若雪张文生...
    1850-1862页
    查看更多>>摘要:社区检测是复杂网络分析的重要工具之一,可帮助深入了解网络的社区结构和节点间潜在的关系,但同时也带来了隐私泄露问题.社区隐藏作为社区检测的伴生问题,旨在以最小的边扰动代价破坏网络的社区结构,近年来受到越来越多学者的关注.但现有的社区隐藏方法忽略了网络的生成机制且缺少针对不同尺度隐藏的统一框架,因此提出了一种基于随机块模型的社区隐藏(community hiding-stochastic block model,HC-SBM)算法,该算法从网络生成机制角度构建了社区隐藏的统一框架,即实现微观(个体)、介观(社区)、宏观(网络)3个尺度上的社区检测算法攻击.其基本思想是基于随机块模型刻画网络的生成机制,特别是网络社区形成和分裂的规律和模式,挖掘生成过程中的关键性链接以及链接集合,最终通过最小代价扰动策略破坏网络社区结构.通过在真实网络上的大量实验,并与 4种先进的基准算法进行比较,表明了提出的HC-SBM算法在社区隐藏效果更优.

    社区隐藏社区检测随机块模型生成机制社会网络分析