首页期刊导航|计算机科学
期刊信息/Journal information
计算机科学
计算机科学

朱完元

月刊

1002-137X

jsjkx12@163.com

023-63500828

401121

重庆市渝北区洪湖西路18号

计算机科学/Journal Computer ScienceCSCD北大核心CSTPCD
查看更多>>本刊的读者对象是:大专院校师生,从事计算机科学与技术领域的科研、生产人员。办刊宗旨是:坚持“双百”方针,活跃计算机科学与技术领域的学术气氛,重点报导国内外计算机科学与技术的发展动态,为我国的计算机科学与技术立于世界之林、达到国际先进水平奋斗而矢志不渝。
正式出版
收录年代

    机器学习公平性指标:现状、挑战和展望

    张文琼李云
    266-272页
    查看更多>>摘要:随着机器学习应用的日益普及,机器学习公平性问题引起了学术界和工业界的广泛关注,成为了可信人工智能的重要组成部分.为了评估和改善机器学习应用的公平性,研究人员提出了一系列公平性指标,这些指标有助于保障机器学习模型在不同个体、群体间的公平决策,并为改善和优化模型提供指导.但各界对于指标之间的区别与联系仍没有形成共识,对不同场景、不同任务的公平性定义没有明确的划分,公平性指标缺乏完善的分类体系.文中对公平性指标进行了全面的整理和归类,从指标的数学定义出发,根据是否基于概率统计将公平性指标分为两类,然后分别对这两类指标进行进一步的细粒度划分和阐述.为了便于读者理解和运用,结合一个实际案例,从适用场景和实现条件等方面指出各类指标的优势和面临的挑战,还结合数学定义讨论了指标之间的关系,并对未来趋势进行了展望.

    机器学习机器学习公平性可信人工智能公平性指标公平决策

    生成扩散模型研究综述

    闫志浩周长兵李小翠
    273-283页
    查看更多>>摘要:扩散模型在生成模型领域具有高质量的样本生成能力,一经推出就不断地刷新图像生成评价指标FID分数的记录,成为了该领域的研究热点,而此类相关综述在国内还鲜有介绍.因此,文中对相关扩散生成模型的研究进行汇总与分析.首先,对去噪扩散概率模型、基于分数的扩散生成模型和随机微分方程的扩散生成模型这3类通用模型的特点和原理进行了论述,就每一类基本扩散模型中以优化模型内部算法、高效采样为改进目标的相关衍生模型进行分析.其次,对当下扩散模型在计算机视觉、自然语言处理、时间序列、多模态和跨学科领域等方面的应用进行总结.最后,基于上述论述,分别就目前扩散生成模型存在的采样步骤多、采样时间长等局限性提出了相关建议,并结合前述研究对未来扩散生成模型的发展方向进行了研判.

    深度学习生成模型去噪扩散概率模型基于分数的扩散模型随机微分方程图像生成

    基于大规模用户视频弹幕的颜文字自动化发现

    毛馨雷瞻遥戚正伟
    284-294页
    查看更多>>摘要:作为网络时代产生的新型表情符号,颜文字不仅受到了网络用户与社会主流媒体的青睐,被广泛应用于网络文本中,而且在情感表达、文化宣传等方面具有独特的价值.鉴于颜文字具有丰富的语义情感信息,结合颜文字对网络文本进行研究,能够促进对网络文本的分析与理解,提高多项自然语言处理任务的效果.对文本中的颜文字进行检测与提取,是结合颜文字进行文本分析的首要步骤;然而,由于颜文字具有结构灵活、种类丰富、更新换代快等特点,现有工作大多缺乏对颜文字的整体分析,具有准确率低、边界确定困难、时效性差等局限性.文中通过深入分析颜文字的特征,提出了一种基于大规模弹幕文本的颜文字检测与提取算法Emoly.该算法通过预处理方法提取出初步候选字符串,将多种改进的统计指标与过滤规则相结合,用于筛选出最终候选字符串,并通过文本相似度对其排序,输出最终结果.实验结果表明,Emoly算法在百万规模的弹幕文本中达到了 91%的召回率,能够全面而准确地将文本中的颜文字检测并提取出来,具有稳健性、优越性与通用性.同时,该算法还为中文分词、情感分析、输入法词库更新等任务提供了新的解决思路与方法,具有广泛的应用价值.

    自然语言处理数据分析颜文字视频弹幕

    命题逻辑中一类正则标准矛盾体的构造与复合

    臧珲何星星王成龙李莹芳...
    295-300页
    查看更多>>摘要:归结原理是自动推理中一种简洁、可靠且完备的推理规则,标准矛盾体分离演绎理论是二元归结的一个延拓.矛盾体的结构非常复杂,现有的矛盾体种类和生成策略较少.针对该问题,文中基于命题逻辑的标准矛盾体分离演绎理论,首先通过复合两个或多个正则标准矛盾体,得到了生成新矛盾体的多个复合策略;其次,提出了一类特殊标准矛盾体结构——复合正则标准矛盾体,丰富了矛盾体的结构特征;然后讨论了复合得到的新矛盾体不同子句的可扩充性,进而得到相应的文字添加策略;最后,提出了矛盾体的生成算法,为进一步在计算机上实现新矛盾体的生成提供了参考.

    命题逻辑标准矛盾体复合正则标准矛盾体复合策略文字添加策略

    稀疏异质多智能体环境下基于强化学习的课程学习框架

    罗睿卿曾坤张欣景
    301-309页
    查看更多>>摘要:现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力.当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密.实际战争场景中并不总是满足这两个设定,可能包含多种异质的智能体以及作战单位分布稀疏.为了探索强化学习在更多场景中的应用,分别就这两方面进行改进研究.首先,设计并实现了多尺度多智能体抢滩登陆环境M2 ALE,M2 ALE针对上述两个简化设定做了针对性的复杂化,添加了多种异质智能体和作战单位分布稀疏的场景,这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性,使用常用的多智能体算法通常难以训练.其次,提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点.HMACL包括3个模块:1)任务生成模块(STG),用于生成源任务以引导智能体训练;2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性,提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略,实现了异质智能体系统中的参数共享;3)训练模块(Trainer),通过从STG获取源任务,从CPI获取最新的策略,使用任意MARL算法训练当前的最新策略.HMACL可以缓解常用MARL算法在M2ALE环境中的探索难问题和非平稳性问题,引导多智能体系统在M2ALE环境中的学习过程.实验结果表明,使用HMACL使得MARL算法在M2ALE环境下的采样效率和最终性能得到大幅度的提升.

    多智能体强化学习作战仿真课程学习参数共享多智能体环境设计

    基于生成式对抗网络和正类无标签学习的知识图谱补全算法

    胡斌皓张建朋陈鸿昶
    310-315页
    查看更多>>摘要:随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果.因此,知识图谱补全成为了知识图谱领域的热点.然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略.在改善负样本抽样的知识图谱补全算法的研究中,基于生成式对抗网络的方法取得了不错的进展.然而,现有研究并没有关注到负样本存在假阴性标签的问题,即生成的负样本中可能包含真实的事实.为了缓解假阴性标签问题,提出了 一种基于生成式对抗网络和正类无标签学习的知识图谱补全算法.该方法利用生成式对抗网络生成无标签样本,并使用正类无标签学习缓解假阴性标签问题.在基准数据集上进行的大量实验证明了所提算法的有效性与准确性.

    知识图谱补全生成式对抗网络正类无标签学习负样本抽样

    漏洞基准测试集构建技术综述

    马总帅武泽慧燕宸毓魏强...
    316-326页
    查看更多>>摘要:随着软件漏洞分析技术的发展,针对不同漏洞的发现技术和工具被广泛使用.但是如何评价不同技术、方法、工具的能力边界是当前该领域未解决的基础性难题.而构建用于能力评估的漏洞基准测试集(Vulnerability Benchmark)是解决该基础性难题的关键.文中梳理了近20年漏洞基准测试集构建的相关代表性成果.首先从自动化的角度阐述了基准测试集的发展历程;然后对基准测试集构建技术进行了分类,给出了基准测试集构建的通用流程模型,并阐述了不同测试集构建方法的思想、流程以及存在的不足;最后总结当前研究的局限性,并对下一步研究进行了展望.

    漏洞基准测试集软件漏洞分析评估指标

    基于样本嵌入的挖矿恶意软件检测方法

    傅建明姜宇谦何佳郑锐...
    327-334页
    查看更多>>摘要:加密货币挖矿恶意软件的高盈利性和匿名性,对计算机用户造成了巨大威胁和损失.为了对抗挖矿恶意软件带来的威胁,基于软件静态特征的机器学习检测器通常选取单一类型的静态特征,或者通过集成学习来融合不同种类静态特征的检测结果,忽略了不同种类静态特征之间的内在联系,其检测率有待提升.文章从挖矿恶意软件的内在层级联系出发,自下而上提取样本的基本块、控制流程图和函数调用图作为静态特征,训练三层模型以将这些特征分别嵌入向量化,并逐渐汇集从底层到高层的特征,最终输入分类器实现对挖矿恶意软件的检测.为了模拟真实环境中的检测情形,先在一个小的实验数据集上训练模型,再在另一个更大的数据集上测试模型的性能.实验结果表明,三层嵌入模型在挖矿恶意软件检测上的性能领先于近年提出的机器学习模型,在召回率和准确率上相比其他模型分别提高了 7%和3%以上.

    挖矿恶意软件静态分析机器学习图嵌入

    工业场景下联邦学习中基于模型诊断的后门防御方法

    王迅许方敏赵成林刘宏福...
    335-344页
    查看更多>>摘要:联邦学习作为一种能够解决数据孤岛问题、实现数据资源共享的机器学习方法,其特点与工业设备智能化发展的要求相契合.因此,以联邦学习为代表的人工智能技术在工业互联网中的应用越来越广泛.但是,针对联邦学习架构的攻击手段也在不断更新.后门攻击作为攻击手段的代表之一,有着隐蔽性和破坏性强的特点,而传统的防御方案往往无法在联邦学习架构下发挥作用或者对早期攻击防范能力不足.因此,研究适用于联邦学习架构的后门防御方案具有重大意义.文中提出了一种适用于联邦学习架构的后门诊断方案,能够在无数据情况下利用后门模型的形成特点重构后门触发器,实现准确识别并移除后门模型,从而达到全局模型后门防御的目的.此外,还提出了一种新的检测机制实现对早期模型的后门检测,并在此基础上优化了模型判决算法,通过早退联合判决模式实现了准确率与速度的共同提升.

    联邦学习后门防御早期后门攻击后门触发器早退联合判决

    基于梯度选择的轻量化差分隐私保护联邦学习

    王周生杨庚戴华
    345-354页
    查看更多>>摘要:为了应对机器学习过程中可能出现的用户隐私问题,联邦学习作为首个无需用户上传真实数据、仅上传模型更新的协作式在线学习解决方案,已经受到人们的广泛关注与研究.然而,它要求用户在本地训练且上传的模型更新中仍可能包含敏感信息,从而带来了新的隐私保护问题.与此同时,必须在用户本地进行完整训练的特点也使得联邦学习过程中的运算与通信开销问题成为一项挑战,亟需人们建立一种轻量化的联邦学习架构体系.出于进一步的隐私需求考虑,文中使用了带有差分隐私机制的联邦学习框架.另外,首次提出了基于Fisher信息矩阵的Dropout机制——FisherDropout,用于对联邦学习过程中在客户端训练产生梯度更新的每个维度进行优化选择,从而极大地节约运算成本、通信成本以及隐私预算,建立了一种兼具隐私性与轻量化优势的联邦学习框架.在真实世界数据集上的大量实验验证了该方案的有效性.实验结果表明,相比其他联邦学习框架,FisherDropout机制在最好的情况下可以节约76.8%~83.6%的通信开销以及23.0%~26.2%的运算开销,在差分隐私保护中隐私性与可用性的均衡方面同样具有突出优势.

    联邦学习差分隐私Fisher信息矩阵Dropout机制轻量化