首页期刊导航|计算机科学
期刊信息/Journal information
计算机科学
计算机科学

朱完元

月刊

1002-137X

jsjkx12@163.com

023-63500828

401121

重庆市渝北区洪湖西路18号

计算机科学/Journal Computer ScienceCSCD北大核心CSTPCD
查看更多>>本刊的读者对象是:大专院校师生,从事计算机科学与技术领域的科研、生产人员。办刊宗旨是:坚持“双百”方针,活跃计算机科学与技术领域的学术气氛,重点报导国内外计算机科学与技术的发展动态,为我国的计算机科学与技术立于世界之林、达到国际先进水平奋斗而矢志不渝。
正式出版
收录年代

    基于多目标优化的工作量感知即时软件缺陷预测特征构建方法

    赵晨阳刘磊江贺
    232-241页
    查看更多>>摘要:即时软件缺陷预测(JIT-SDP)是一种针对代码变更的软件缺陷预测技术,具有细粒度、即时性和可追溯性的优点.工作量感知JIT-SDP进一步考虑代码检查工作量,旨在以有限的工作量识别更多的缺陷变更.尽管目前已有不少工作量感知JIT-SDP,但这些方法大多只针对分类模型算法进行优化.为提升工作量感知JIT-SDP的性能表现与泛用性,首次从特征工程方面入手,提出了一种工作量感知场景下的进化特征构建方法EEF.首先,EEF方法通过遗传编程树来表示特征,从分类性能与工作量感知性能两个角度出发,通过基于多目标优化的进化特征构建方法来获取新的特征转换方法;之后,通过得到的特征转换方法来构建新的特征集,并基于新的特征集训练与测试分类模型.为了验证EEF方法的有效性,在6个开源项目上,通过3个不同评估方案进行了实验研究,结果证明EEF方法可以提升分类模型在工作量感知场景下的性能,并优于其他特征工程方法,而且在保证特征选取多样性的前提下,基于单一模型的EEF方法同样可以提升其他模型的性能.

    即时缺陷预测工作量感知进化特征构建多目标优化特征工程

    基于细粒度代码表示和特征融合的即时软件缺陷预测方法

    朱晓燕王文格王嘉寅张选平...
    242-249页
    查看更多>>摘要:即时软件缺陷预测指在软件更改初次提交之际预测该更改引入缺陷的倾向.此类预测针对单一程序变更,而非在粗粒度上进行.由于其即时性和可追溯性,该技术已在持续测试等领域得到广泛应用.目前的研究中,提取变更代码表示的方法粒度较粗,仅标出了变更行,而没有进行细粒度的标记.此外,现有的使用提交内容进行缺陷预测的方法,仅仅是把提交消息与变更代码的特征进行简单拼接,缺失了在特征空间上的深度对齐,这使得在提交消息质量参差不齐的情况下,会出现预测结果易受噪声干扰的情形,并且现有方法也未将领域专家设计的人工特征以及变更内容中的语义语法信息综合起来进行预测.为了解决上述问题,提出了一种基于细粒度代码表征和特征融合的即时软件缺陷预测方法.通过引入新的变更嵌入计算方法来在细粒度上表示变更代码.同时,引入特征对齐模块,降低提交消息中噪声对方法性能的影响.此外,使用神经网络从人工设计的特征中学习专业知识,充分利用现有特征进行预测.实验结果表明,相较于现有方法,该方法在3个性能指标上均有显著提升.

    即时软件缺陷预测特征融合软件工程深度学习代码表示

    基于CodeBERT和Stacking集成学习的补丁正确性验证方法

    韩威姜淑娟周伟
    250-258页
    查看更多>>摘要:近年来,自动程序修复已成为软件工程领域的重要研究课题.然而,现有的自动修复技术大多是基于补丁生成和测试的,在补丁验证环节时间成本很高.此外,由于测试套件的不完备,许多候选补丁虽然能通过测试,但实际上并不正确,从而导致补丁过拟合.为提高补丁验证的效率并缓解补丁过拟合的问题,提出了一种静态的补丁验证方法.该方法首先使用大型预训练模型CodeBERT自动提取缺陷代码片段和补丁代码片段的语义特征,然后使用历史缺陷修复补丁数据训练Stacking集成学习模型,训练之后的模型可以对新的缺陷修复补丁进行有效验证.在Defects4J缺陷数据集相关的1 000个补丁数据上对所提方法的验证能力进行评估.实验结果表明,该方法可以有效地验证补丁的正确性,从而提高补丁验证的效率.

    自动程序修复补丁验证预训练模型集成学习Defects4J缺陷数据集

    关于征集CCF产学合作基金优秀项目案例的通知

    CCF微信公众号
    258页

    视觉富文档理解预训练综述

    张剑李晖张晟铭吴杰...
    259-276页
    查看更多>>摘要:视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档.现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理.这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域.近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展.然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺.为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结.首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎.然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异.此外,简要介绍了多模态大模型在视觉富文档理解领域的应用.接着,对预训练模型在下游任务上的表现进行了对比分析.最后,探讨了预训练技术面临的挑战和未来的研究方向.

    文档智能预训练模型自然语言处理计算机视觉深度学习

    基于符号知识的选项发现方法

    王麒迪沈立炜吴天一
    277-288页
    查看更多>>摘要:基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式.其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务.针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项.然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用.为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用.将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为.使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验.选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%.另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛.

    分层强化学习演示学习选项发现马尔可夫决策过程

    基于最大影响力集合的主动学习方法

    李雅和谢志鹏
    289-297页
    查看更多>>摘要:随着深度学习技术的不断进步,其已经在许多领域广泛应用.但深度模型的训练需要消耗大量标注数据,时间与资源成本高,如何利用尽可能少的标注数据达到最佳模型效果成为一个重要的研究课题.主动学习的提出正是为了解决这一问题,其旨在选择最有价值的样本进行标注并用于模型训练.传统的主动学习策略通常关注不确定性或多样性,旨在查询最困难或最具代表性的样本.然而,在主动学习问题中,这些方法通常没有考虑标注样本和无标注样本之间的交互作用.另一类主动学习方法则使用辅助网络进行样本选择,但这些方法通常会增加计算复杂度.在上述背景下,提出一种新的主动学习算法,旨在通过考虑不同样本之间的相互作用,综合衡量候选样本对其他样本的影响力与不确定性,来最大限度地提高模型的整体性能增益.所提算法首先根据样本隐含层表征之间的距离估计样本相互之间的影响力,进一步根据候选样本的影响力与无标注样本的不确定性估计该样本能够带来的潜在增益,并迭代地选择全局增益最大的样本进行标注.进一步在一系列不同领域的多种任务上将该方法与其他主动学习策略进行了比较,实验结果表明,该方法在所有任务中的表现均显著优于所有基线方法.进一步的量化分析实验也证明该方法在不确定性和多样性之间取得了良好的权衡,并探究了主动学习不同阶段应该注重的因素.

    主动学习深度学习不确定性

    基于多关系图注意力网络的社交机器人检测

    孟令君陈鸿昶王庚润
    298-306页
    查看更多>>摘要:现阶段社交机器人已经广泛存在于社交平台,社交机器人的存在使得网络上的舆论环境可以被人为操纵,这样不仅损害了绿色和谐的网络环境,同时也导致人们正常的网络生活受到极大影响.现有的检测方法可以分为基于特征、基于文本和基于图的方法,其中基于图数据的检测方法大多忽略了图中关系的异质性,并且由于图神经网络存在过渡平滑现象而不能进行深度检测.针对这一问题,提出基于多关系图注意力网络的社交机器人检测方法,在训练时首先将不同关系下的子图抽取出来,然后对子图中的节点采用注意力机制进行聚合,在不同关系下进行节点表示学习并得到节点表示,最后利用通道注意力融合不同关系下的同一节点得到节点表示;同时采用基于LSTM注意力的后连接操作让节点可以自适应地选择邻域进行聚合,以此来缓解过度平滑现象.在Cresci15,Twibot20和 MGTAB这3个数据集上的实验结果表明,与11个模型中评价指标的最优值相比,该模型的准确率分别提升了 0.47%,1.19%和0.38%,验证了多关系图注意力网络进行社交机器人检测的有效性.

    异质图图注意力节点表示学习LSTM注意力社交机器人

    融合情感和常识知识的对话生成模型

    程金凤蒋宗礼
    307-314页
    查看更多>>摘要:随着深度学习技术的发展,开放域对话系统作为人机对话系统的重要分支也得到了快速发展.但目前开放域对话模型生成的回复语句依然存在同理心较差、多样性较低等问题.对此,提出一种融合情感和常识知识的对话生成模型.首先依据情感词典和常识知识图谱获取每个单词对应的常识知识向量,然后将该向量和单词本身的词嵌入向量一同输入编码器中进行编码,接着通过两阶段解码来生成回复语句:第一个解码阶段预测要生成单词的情感强度,并据此获得该单词对应的情感向量,第二阶段解码结合第一阶段编码的结果和已生成单词的词嵌入向量及其对应的常识知识向量作为输入,预测要生成的单词.实验结果表明,该模型生成的回复语句更具同理心和多样性,并且在PPL,BLEU,ACC和DISTINCT等指标上相比基线模型都有一定提升.

    对话模型情感词典常识知识图谱两阶段解码情感强度

    基于层次化视觉注意力的富语义视频对话生成

    赵倩郭斌刘宇博孙卓...
    315-322页
    查看更多>>摘要:视频对话是多模态人机交互领域中的重要内容.视频对话中包含大量时空视觉信息和复杂的多模态关系,这给相关研究带来了巨大的挑战.现有的视频对话模型利用跨模态注意力机制或图结构捕捉视频语义和对话上下文之间的相关性,然而,所有视觉信息均是在单一粗粒度下处理的,这导致模型容易忽略一些细粒度时空信息,如同一物体在时间上的持续运动或图像不显著位置的物体信息,从而降低了视频对话性能.同时,细粒度处理全部视觉信息又将增加处理时延,降低视频对话的流畅性.因此,提出了一种层次化视觉注意力的富语义视频对话生成方法.首先根据对话上下文,利用全局视觉注意力捕捉全局视觉语义信息,并定位到对话输入关注的视频时间序列/空间范围,其次利用局部注意力机制进一步捕捉细粒度视觉信息,结合多任务学习方法,生成对话回复.在DSTC7 AVSD数据集上的实验结果表明,相比现有基准方法,所提方法生成的对话具备更高的准确性和多样性,其中METEOR指标提高了 23.24%.

    多模态人机交互层次化注意力机制多任务学习场景感知