首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    区块链去中心化平台与代币的转账信息不一致问题的发掘与检测

    苏洲
    273页

    DEALS——追踪代币转账信息不一致

    姜人楷宋书玮罗夏朴陈厅...
    274-288页
    查看更多>>摘要:区块链使传统的交易所和借贷机构能够扩展到去中心化平台(decentralized platform,Depl),任何人都可以在没有中介机构帮助的情况下进行交易和借贷.大多数Depl都是作为运行在以太坊上的智能合约实现的,并与另一种智能合约、加密货币(即代币)交互,以实现各种功能.尽管Depl涉及价值超过350亿的美元,但人们对代币的实际转移是否如Depl预期的那样一致知之甚少.代币的实际转移与Depl期望的不一致被称为行为不一致,这种不一致的出现将导致财产的损失和用户的质疑.在这项工作中,我们迈出了调查Depl和代币之间的这种不一致的第一步.我们提出通过监控Depl和代币的核心数据结构变化,将实际的代币转移行为与Depl内部记录指示的行为进行比较,自动检测不一致.实验结果表明,在1 012 749笔交易中存在不一致行为,涉及 2 871对Depl和代币,与 110个Depl和 2 544个代币相关.实验结果的精准度为 98.0%.此外,还总结了导致不一致的 10大原因,例如诈骗Depl、Depl与代币尺度不一致、锁币规则不明确等.

    区块链去中心化平台代币行为不一致自动检测

    前言

    李戈邢颖刘芳刘辉...
    289-290页

    CodeScore-R:用于评估代码合成功能准确性的自动化鲁棒指标

    杨光周宇陈翔张翔宇...
    291-306页
    查看更多>>摘要:评估指标在代码合成领域中至关重要.常用的代码评估指标可以分为3种类型:基于匹配、基于语义和基于执行.其中,基于执行的Pass@k指标通过执行测试用例,能够准确判断预测代码的功能准确性.然而,该指标的计算需要大量开销,因此亟需设计一种自动化评估指标,在无需测试用例时仍可评估预测代码的功能准确性.此外,好的评估指标应当具有鲁棒性,即预测代码发生微小改变时,评估指标仍能保持其准确性.为此,提出了一种基于UniXcoder和对比学习的自动化鲁棒指标CodeScore-R,用于评估代码合成的功能准确性.CodeScore-R采用草图化处理、语法等价转换和变异测试等技术手段,有效减轻了标识符、语法结构和运算符对评估结果的干扰.实验结果表明,在Java和Python语言上的代码生成和迁移任务中,CodeScore-R的表现优于其他无需测试用例的评估指标,且更接近Pass@k指标,并具有更强的鲁棒性.

    代码合成评估指标功能准确性鲁棒性代码合成神经网络

    基于分层表示和上下文增强的类摘要生成技术

    陈豪伶虞慧群范贵生李明辰...
    307-323页
    查看更多>>摘要:代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一种基于分层表示和上下文增强的类摘要生成方法HRCE(hierarchical representation and context enhancement),并构建了一个包含 358 992个<Java类,上下文,摘要>数据对的类摘要数据集.HRCE使用代码精简策略去除类的非关键代码,从而缩短代码长度.然后,对类的层次结构,包括类签名、属性和方法分别进行建模,获得类的语义信息和层次结构信息.此外,从项目中抽取父类的签名及摘要来刻画类在项目中依赖的上下文.实验表明,基于分层表示和上下文增强的类摘要生成模型能够表征代码的语义和层次结构,并可以从目标类的内部和外部获取信息.HRCE在BLEU,METEOR,ROUGE-L等评估指标上超过了所有基准模型.

    代码自动摘要分层表示上下文增强深度学习类摘要

    基于扩散模型生成数据重构的客户流失预测

    杨斌王正阳程梓航赵慧英...
    324-337页
    查看更多>>摘要:在数据挖掘领域普遍存在数据不平衡影响到模型预测精度的问题,同时还存在未考虑用户隐私保护的问题.生成伪造数据是一种重要的解决方法,但在以结构化数据为主的场景中,由于存在数据特征维度多且不相关等特点,生成高质量的数据存在挑战.考虑到扩散模型在图像生成等任务中被成功应用,以客户流失预测为典型应用场景,尝试将扩散模型应用到客户流失预测任务中.针对该场景数据中的数值型特征和类别型特征,通过高斯扩散模型和多项式扩散模型获得生成数据,并对模型预测效果和数据隐私保护能力进行研究和分析.在多个领域的客户流失数据上进行了大量实验,探索应用生成数据对真实数据融合重构的可能性.实验结果表明基于扩散模型可生成高质量数据,且对多种预测方法均有一定提升,可实现缓解数据不平衡问题.同时,基于扩散模型生成的数据分布更接近真实数据,具有应用于用户隐私保护的潜在价值.

    客户流失扩散模型用户隐私数据生成类别特征

    ChatModeler:基于大语言模型的人机协作迭代式需求获取和建模方法

    靳东明金芝陈小红王春晖...
    338-350页
    查看更多>>摘要:需求获取和建模是需求工程中的关键步骤,影响后续系统设计与实现.传统的需求获取和建模方法通常由需求提供者、需求分析师等多类干系人共同协作、反复迭代完成,需要耗费大量的人力.如何减轻需求提供者与需求分析师的负担、提高获取和建模的效率有着重要意义.现有工作中有的使用知识库来提供更多知识,以辅助获取或者建模,有的利用自然语言处理等技术对获取或者建模过程进行自动化,但是它们并没有减轻需求提供者的负担.利用大语言模型(large language models,LLMs)的生成能力,提供了一种人机协作的迭代式需求获取和建模框架ChatModeler.具体来说,根据真实世界中需求团队的分工及协作关系,将部分需求提供者、需求分析师等角色的工作由大语言模型承担,而需求提供者只需要进行确认.为大语言模型扮演的各种角色进行了提示词设计,该提示词会随需求的元模型而变化.ChatModeler在 7个需求案例上与 3种需求模型的自动建模方法进行了 14组对比实验,证明了ChatModeler在降低需求提供者的负担和生成高质量需求模型2个方面上的优越性.

    需求工程需求诱导大语言模型人机协作提示工程

    大型语言模型:原理、实现与发展

    舒文韬李睿潇孙天祥黄萱菁...
    351-361页
    查看更多>>摘要:近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响.随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升.因此,增加语言模型的参数和数据规模成为提升系统智能水平富有前景的途径.首先回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了"大型"语言模型的界定标准.其次,从数据、算法、模型 3个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展.接着,考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状.最后,展望了大型语言模型的未来发展和技术挑战.

    自然语言处理神经网络大型语言模型预训练对齐

    超图神经网络综述

    林晶晶冶忠林赵海兴李卓然...
    362-384页
    查看更多>>摘要:近年来,图神经网络借助大量数据和超强计算能力在推荐系统和自然语言处理等应用领域取得显著成效,它主要处理具有成对关系的图数据.但许多现实网络中的对象之间的关系是复杂的非成对关系,如科研合作网络、蛋白质网络等.若直接用图结构将这种复杂的关系表示为成对关系,会导致信息丢失.超图是一种灵活的建模工具,可以展现出图无法完整刻画的高阶关系,弥补了图的不足.鉴于此,研究者开始关心如何在超图上设计神经网络,并相继提出应用于下游任务的超图神经网络模型(hypergraph neural network,HGNNs).故对现有的超图神经网络模型进行综述,首先全面回顾超图神经网络在过去 3年的研究历程;其次根据设计超图神经网络采用的方法不同对其进行分类,并详细地阐述代表性的模型;然后介绍了超图神经网络的应用领域;最后总结和探讨了超图神经网络未来的研究方向.

    超图超图神经网络分类图神经网络

    在线社交网络中用户地理位置预测综述

    刘乐源代雨柔曹亚男周帆...
    385-412页
    查看更多>>摘要:随着智能移动终端的日益普及,人们越来越多地利用社交网络平台(如Twitter、新浪微博等)获取信息、评论和交流.虽然全球卫星定位系统(GPS)设备能够精确获取位置信息,但是大量用户出于隐私和安全的考虑不会直接共享自己的位置信息.因此,如何获取在线用户的地理位置成为了一个前沿的研究领域以及学术界和工业界共同关注的重要课题,并且成为众多下游应用的基础,例如基于位置的定向广告投放、事件/地点的推荐、自然灾害或疾病预警和网络犯罪的追踪等.详细总结了预测社交网络用户地理位置的方法、数据、评价体系和基础算法.首先,归纳了不同的定位任务以及相应的评价指标;其次,针对不同的任务梳理所用的数据类型和数据融合方式,并且,详尽分析了已有的信息抽取和特征选择方式及其优缺点;再次,对现有定位模型和算法进行分类,从地名词典、传统机器学习和深度学习 3个方面对用户定位方法进行阐述和分析;最后,总结了社交网络用户地理位置预测的难点和面临的挑战,并展望该领域的发展趋势和未来研究所需要关注的方向.

    社交网络地理位置预测数据分析与融合信息抽取时空特征