首页期刊导航|计算机学报
期刊信息/Journal information
计算机学报
计算机学报

高文

月刊

0254-4164

cjc@ict.ac.cn

010-62620695

100190

中国科学院计算技术研究所(北京2704信箱)

计算机学报/Journal Chinese Journal of ComputersCSCD北大核心CSTPCDEI
查看更多>>本刊是中国计算机领域的有代表性学术刊物,作为一种科学研究档案,代表了计算机领域各个研究阶段的水平。本刊被《工程索引》(美国)、《科学文摘》(英国)、《数学文摘》(美国)、《科技文献速报》(日本)、《文摘杂志》(俄罗斯)等多种权威系统收录。是科技部科技信息研究所科技论文统计源期刊、中国科学引文数据库来源期刊。
正式出版
收录年代

    基于交互引导的问答对联合生成模型

    刘杰林绍鑫王善鹏
    251-265页
    查看更多>>摘要:大规模问答对的自动生成在知识问答库构建和机器阅读理解等许多应用具有关键价值.尽管其重要性已得到广泛认可,现有问答对生成方法仍面临着严峻挑战.首先,在传统的问答对生成模型中,抽取式的答案获取方法难以适用于复杂的自然交互场景.相比较而言,生成式模型通过对文本的语义理解,能够自动生成表述更加自然的答案.其次,对于问答对生成任务来说,为了防止生成的答案和问题出现语义上的不匹配,需要更全面地捕捉并增强答案生成和问题生成两个子任务之间的交互.最后,由于答案抽取和问题生成存在任务难度的差异,这两个任务在联合训练的过程中会出现任务之间的优化不平衡问题.为此,本文提出了一个基于交互引导的问答对联合生成模型(Interaction-Guided Joint Abstractive QAPs Generation Model,IGJA-QAP).具体而言,本文设计了一个带有答案引导的多头门机制的联合生成模型,同时对两个子任务进行统一建模并有效地捕获和增强它们之间的信息交互,从而可以生成语义上匹配的问答对.本文在三个大规模数据集SQuAD、NewQA和CoQA上进行了综合全面的实验分析.本文提出的模型在答案生成任务上METEOR值平均分别超出其他最佳方法3.0%、5.9%和4.3%,问题生成任务上METEOR值平均分别超出其他最佳方法1.5%、0.5%和2.1%.实验结果表明,本文提出的模型达到了目前最高的性能.

    问答对生成统一生成式模型答案引导的多头门指针网络相互优化

    基于多源域对抗迁移学习的可穿戴情绪识别技术

    邹永攀王丹阳王丹郑灿林...
    266-286页
    查看更多>>摘要:情绪影响身心健康及认知功能等,因而在人们的生活中扮演着重要角色.自动情绪识别有助于预警心理疾病和探索行为机制,具有巨大的研究与应用价值.在过去十余年中,研究者们提出了各种情绪识别方法,但均存在不同方面的不足:基于脑电图(Electroencephalography,EEG)信号的方法需采用专业、昂贵且不易操作的脑电仪;基于视觉和语音的方法存在隐私泄露的风险;基于手机使用模式分析的方法其可靠性和准确性有待提高等.本文利用生理信号如呼吸音、心跳音及脉搏等与情绪的潜在关联性,创新性地提出基于低成本、普适易用可穿戴硬件的情绪识别技术,借助多模态数据融合对不同类型数据进行有效利用,既减少了数据冗余又有效提升了系统性能.此外,在保证良好识别准确率的前提下,为提升情绪识别模型对不同用户的泛化性、最大化降低新用户的使用成本,本文提出了基于多源域对抗思想的情绪识别模型,借助少量来自新用户的无标签数据实现模型的无监督迁移,再辅之以极少量有标签数据微调分类器参数可进一步提升情绪识别准确率.为验证所提情绪识别方法的有效性,本文设计并实现了一套融合麦克风与光电容积脉搏波(Photoplethysmography,PPG)传感器以测量人体心跳音、呼吸音及脉搏等生理指征的可穿戴系统.基于此系统,本文在不同设置下开展了大量实验并对不同影响因素进行了评估.实验结果表明:对于四类基本情绪,本文所提方法单被试识别准确率可达95.0%,跨被试识别准确率为62.5%,比基准方法提升了5.3%.结合有监督小样本参数微调,识别准确率可进一步提高至81.1%,比基准方法提高了12.4%.上述结果验证了本文所提方法的可行性,为泛在情绪识别研究做出了崭新的探索.

    可穿戴设备情绪识别多模态数据迁移学习域迁移生成对抗学习

    跨摄像头多目标跟踪方法综述

    张鹏雷为民赵新蕾董力嘉...
    287-309页
    查看更多>>摘要:单摄像头目标跟踪将目标跟踪范围限定在单一摄像头视野中,难以满足复杂应用场景需求,跨摄像头多目标跟踪融合多个摄像头的信息实现多个摄像头之间的特征传递和轨迹关联,可以将跨摄像头之间的多个目标在多个监控区域下联合跟踪,对现实复杂场景实时监控具有重要意义,成为目标跟踪领域研究热点.本文介绍了跨摄像头多目标跟踪的基本概念,结合实际应用需求将跟踪模型分为3类:包括重叠视角、非重叠视角以及混合视角的跨摄像头多目标跟踪.详细对比分析了重叠视角跨摄像头多目标跟踪相关的网络流优化方法、单应性约束方法、强化学习方法、超图方法和Transformer方法;以及基于双阶段轨迹关联、单阶段轨迹关联的非重叠视角的跨摄像头多目标跟踪方法;并总结了混合视角的跨摄像头多目标跟踪方法,混合视角方法可以在重叠视角数据集和非重叠视角数据集都能使用并且算法性能和精度都能达到良好的平衡.对比了各类方法的优缺点及其适用场景;分析了目前跨摄像头多目标跟踪常用的数据集和评估标准;总结了跨摄像头多目标跟踪存在的问题,并对相关技术的发展趋势进行了展望.

    跨摄像头多目标跟踪摄像头关联模型重叠视角非重叠视角混合视角

    自适应相似图联合优化的多视图聚类

    纪霞施明远周芃姚晟...
    310-322页
    查看更多>>摘要:相比于单一视图学习,多视图学习往往可以获得学习对象更全面的信息,因而在无监督学习领域,多视图聚类受到了研究者的极大关注,其中基于图的多视图聚类,近年来取得了很大的研究进展.基于图的多视图聚类一般是先从各个视图原始数据学习相似图,再进行视图间相似图的融合来获得最终聚类结果,因此,多视图聚类的效果是由相似图质量和相似图融合方法共同决定的.然而,现有基于图的多视图聚类方法几乎都聚焦在视图间相似图的融合方法研究上,而缺乏对相似图本身质量的关注.这些方法大多数都是孤立地从各视图的原始数据中学习相似图,并且在后续图融合过程中保持相似图不变.这样得到的相似图不可避免地包含噪声和冗余信息,进而影响后续的图融合和聚类.而少量考虑相似图质量的研究,要么相似图构造和图融合过程是直接联立迭代的,要么在预定义相似图过程中提前利用秩约束进一步初始化,要么就是利用相似图存在的一些底层结构来获取融合图的.这些方法对相似图本身改进很小,最终聚类性能提升也十分有限.同时现有基于图的多视图聚类流程也缺乏对各视图间一致性和不一致性的综合考虑,这也会严重影响最终的多视图聚类性能.为了避免低质量预定义相似图对聚类结果的不利影响以及综合考虑视图间一致性与不一致性来提升最终聚类效果,本文提出了一种自适应相似图联合优化的多视图聚类方法.首先通过Hadamard积来获得视图间高质量一致性部分信息,再将每个预定义相似图和这部分信息对标,重构各个视图的预设相似图.这个过程强化了各视图间的一致性部分,弱化了不一致性部分.其次设计了相似图重构改进和图融合联合迭代优化框架,实现了相似图的自适应改进,最终达到相似图和聚类结果共同提升的效果.该方法将相似图改进过程与图融合过程联合起来进行自适应迭代优化,并且在迭代优化中不断强化各视图间的一致性,弱化视图间的不一致性.此外,本文的方法也集成了现有多视图聚类方法的一些优点,自加权以及无需额外聚类步骤等.在九个基准数据集上与八个对比方法的实验验证了本文方法的有效性与优越性.

    多视图聚类相似图自适应优化图融合自加权

    基于频域解离特征的OCT指纹表征攻击检测

    刘凤曾文锋张文天孔哲...
    323-336页
    查看更多>>摘要:在自动指纹识别系统中,指纹防伪能力的发展至关重要.传统指纹一般由表面成像得到,而这种表面的纹理特征极容易被盗取.基于这种传统指纹的识别系统,检测指纹表征攻击的能力十分有限.因此,现有研究普遍针对具有防伪特征的指纹模态,如具有汗腺特征的高精度指纹和具有指静脉特征的指纹开发表征攻击检测算法.在本篇工作中,为了进一步提高指纹系统的表征攻击检测能力,我们提出一种基于光学相干断层扫描技术(Optical Coherence Tomography,OCT)的频域指纹表征攻击检测方法.与以往方法不同,我们首先利用卷积神经网络和残差结构设计了一个频域特征解离模型,通过该模型可以分别解离出时域中叠加在原始OCT指纹图像上的信息(如区分性特征、无效特征和冗余特征).然后,我们让它学习不同的频域编码,并结合OCT指纹在时域中的重构编码形成相应的潜层编码.利用潜层编码,我们设计了一种用于区分表征攻击指纹和真实指纹的预测模型,用于表征攻击检测.在目前常用的OCT指纹数据集上的实验结果表明,我们的方法可以通过在频域中分离出一些叠加在时域中的无用干扰信息,从而有效地消除干扰.在实例方面,该方法的最小误差(Err.)为0.67%,与已有的基于时域的最优方法相比,最小误差降低了3.03%,性能提高了81.89%.

    表征攻击检测光学相干断层扫描技术离散小波变换频域解离自动编码器

    基于学习的源代码漏洞检测研究与进展

    苏小红郑伟宁蒋远魏宏巍...
    337-374页
    查看更多>>摘要:源代码漏洞自动检测是源代码漏洞修复的前提和基础,对于保障软件安全具有重要意义.传统的方法通常是基于安全专家人工制定的规则检测漏洞,但是人工制定规则的难度较大,且可检测的漏洞类型依赖于安全专家预定义的规则.近年来,人工智能技术的快速发展为实现基于学习的源代码漏洞自动检测提供了机遇.基于学习的漏洞检测方法是指使用基于机器学习或深度学习技术来进行漏洞检测的方法,其中基于深度学习的漏洞检测方法由于能够自动提取代码中漏洞相关的语法和语义特征,避免特征工程,在漏洞检测领域表现出了巨大的潜力,并成为近年来的研究热点.本文主要回顾和总结了现有的基于学习的源代码漏洞检测技术,对其研究和进展进行了系统的分析和综述,重点对漏洞数据挖掘与数据集构建、面向漏洞检测任务的程序表示方法、基于机器学习和深度学习的源代码漏洞检测方法、源代码漏洞检测的可解释方法、细粒度的源代码漏洞检测方法等五个方面的研究工作进行了系统的分析和总结.在此基础上,给出了一种结合层次化语义感知、多粒度漏洞分类和辅助漏洞理解的漏洞检测参考框架.最后对基于学习的源代码漏洞检测技术的未来研究方向进行了展望.

    软件安全源代码漏洞检测漏洞数据挖掘漏洞特征提取代码表示学习深度学习模型可解释性漏洞检测

    基于分区过滤-增量验证的图编辑相似查询

    王习特白梅王朝金马茜...
    375-395页
    查看更多>>摘要:图编辑相似查询问题是指从图集G中查询出所有与查询图q的图编辑距离(Graph Edit Distance,GED)在给定阈值τ内的数据图.由于GED计算是NP-Hard问题,现有的研究多采用过滤-验证框架进行查询,对未能过滤掉的图采用A*-GED算法验证.本文提出了分区过滤-增量验证框架PFIV来处理图相似查询问题,在增强过滤效果的同时,还能加快验证速度.首先,在过滤阶段提出了2种分区策略,用来加快分区速度.(1)映射顶点顺序策略:在分区过程中,基于图的特征信息和结构信息提出分区时顶点的映射顺序,尽快过滤掉不相似的图,减少计算量;(2)分区结束条件策略:在分区过程中,设置分区结束条件,加快不相似图的过滤速度.其次,在验证阶段提出了增量验证策略,利用过滤阶段保留的映射结果,设计状态空间树,进行增量验证,加快验证阶段的计算.最后,通过大量实验验证了PFIV能够高效地处理图编辑相似查询问题,对比原有算法,查询效率提高8%~17%,并证明了所提出策略的有效性.

    图相似GED分区过滤增量验证图数据

    联邦忘却学习研究综述

    王鹏飞魏宗正周东生宋威...
    396-422页
    查看更多>>摘要:数据已经成为与土地、劳动力、资本、技术等并列的重要生产要素之一.利用数据分析挖掘数据的潜在价值,有助于推动产业创新、技术升级和区域经济发展.然而,在数据使用过程中,隐私泄露等风险限制了数据的流通和共享.因此,如何在数据流通和共享过程中保护数据隐私已成为研究热点.联邦忘却学习(Federated Un-learning)撤销用户数据对联邦学习模型的训练更新,可以进一步保护联邦学习用户的数据安全.本文综述了联邦忘却学习的研究工作,首先简要阐述了联邦学习架构,并引出忘却学习和联邦忘却学习的概念和定义;其次,根据修正对象的不同将联邦忘却学习算法分为面向全局模型和面向局部模型两类,并详细分析各类算法的实现细节以及优缺点;然后,本文还详述联邦忘却学习中常用评价指标,将评价指标划分为模型表现指标、遗忘效果指标和隐私保护指标三类,并分析不同类型评价指标的优缺点;最后,本文对联邦忘却学习未来的研究方向进行展望.

    联邦学习联邦忘却学习数字经济隐私保护边缘智能

    面向天河新一代超算系统通用处理器的性能分析工具集

    冯文韬栾钟治杨海龙钱德沛...
    423-440页
    查看更多>>摘要:天河新一代超算系统是继天河2号后天河系列的新一代超算系统.该系统拟采用通用处理器配合加速器的混合异构架构,其中通用处理器采用ARM架构.目前,面向ARM架构处理器的性能分析工具仍不够完善,而面向新一代超算的性能分析工具更是较为匮乏,实用性和效率还难以满足编程人员的需求.本文针对天河新一代超算系统的通用处理器,设计开发了一套性能分析工具集,包含缓存冲突检测、伪共享检测和内存缺陷检测三个子工具.工具集可以在天河新一代超算系统的普通用户权限下分析系统单节点内以及数据并行性较高的多节点程序的性能问题,并可以解决程序的内存问题.本文使用min-write、缓存行对齐填充、线程访问隔离等多种性能优化策略来提高工具性能,采用以上策略的工具的运行时间可至多减少至原先的1/20,同时使用新颖的红区检测法和红区隐藏与恢复机制来降低工具报告的假错误率.本文还开发了配套的可视化界面,使用户可以对程序的性能分析数据进行可视化的分析和处理,提高了工具的实用性和易用性.工具对程序执行带来的额外时间开销是40~100倍,额外内存开销是100~200倍,正确性和实用性得以保证,可以提高天河新一代超算系统的编程效率和程序性能.

    性能分析工具天河新一代超算系统伪共享检测内存缺陷检测程序优化

    基于异构系统的多级并行稀疏张量向量乘算法

    陈玥丹肖国庆阳王东金纪勇...
    441-455页
    查看更多>>摘要:张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比.

    CPU-GPU异构并行计算多级并行稀疏张量张量运算