首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    亦正亦邪大模型——大模型与安全专题导读

    虎嵩林李涓子秦兵邱锡鹏...
    1085-1093页

    大语言模型时代的社会机遇与挑战

    陈慧敏刘知远孙茂松
    1094-1103页
    查看更多>>摘要:大语言模型ChatGPT因其高度通用化和智能化的表现受到广泛社会关注,其引发的技术革命也正逐渐延伸为一场社会革命.在此背景下,基于ChatGPT背后大语言模型技术的演进路线与特征,探索大语言模型技术对社会的潜在机遇与挑战,成为当下社会的重要议题.首先回顾大语言模型技术发展,将其演进总结为3个发展阶段并论述关键技术特征,然后基于技术与社会互动视角分别探讨大语言模型技术引发的社会机遇:个人通用信息助理、科学研究新范式、产业基础设施、国家治理能力现代化有力工具,以及面临的潜在挑战:信息污染问题、社会权力分配问题、伦理和法制问题、意识形态安全问题.最后,对大语言模型技术发展及其与社会发展关系的未来展开一定思考与讨论.

    大语言模型ChatGPT人工智能技术演进社会变革

    多视角看大模型安全及实践

    王笑尘张坤张鹏
    1104-1112页
    查看更多>>摘要:随着人工智能领域大模型(large model)的广泛应用,大模型,尤其是大语言模型(large language model,LLM)的安全问题受到了广泛关注.大模型作为一种新兴技术,与之相关的安全态势分析以及安全体系建设均亟待挖掘与探索.从社会关系以及技术应用2个视角,分析了大模型安全的整体趋势.同时,基于大模型自身的特点,梳理了大模型安全能力建设的实践思路,为大模型研发、大模型应用构建提供了安全体系构建的参考方案.介绍的大模型安全能力实践方案包括安全评估基准建设、模型价值观对齐方法、模型线上服务安全系统建设3个部分.

    大模型大模型线上服务安全系统人工智能伦理大模型安全形势分析

    JADE-DB:基于靶向变异的大语言模型安全通用基准测试集

    张谧潘旭东杨珉
    1113-1127页
    查看更多>>摘要:提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十余款国内外知名大语言模型的安全防护机制.根据语言复杂性差异,JADE-DB包含基础、进阶、高危3个安全测试等级,共计上千条覆盖违法犯罪、侵犯权益、歧视偏见和核心价值观4大类违规主题、30多种违规主题的通用测试问题,其中针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大语言模型(英文,4款)这3组大语言模型分别构建的3款通用高危测试集,可造成每组模型在高危测试集上的平均违规率均超过70%,测试问题均可同时触发多款模型违规生成.这表明,语言的复杂性导致现有大语言模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质.

    生成式人工智能安全大语言模型大语言模型安全评测人工智能安全自然语言处理

    GPT系列大语言模型在自然语言处理任务中的鲁棒性

    陈炫婷叶俊杰祖璨许诺...
    1128-1142页
    查看更多>>摘要:大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤为重要.因此,使用涵盖了 9个常见NLP任务的15个数据集(约147000个原始测试样本)和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能,以及其在不同任务和文本变形级别(字符、词和句子)上的鲁棒性.研究结果表明,GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能,但其处理信息抽取任务的能力仍较为欠缺,比如其对关系抽取任务中各种关系类型存在严重混淆,甚至出现"幻觉"现象.在鲁棒性评估实验中,GPT模型在任务层面和变形层面的鲁棒性都较弱,其中,在分类任务和句子级别的变形中鲁棒性缺乏更为显著.此外,探究了模型迭代过程中性能和鲁棒性的变化,以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响.结果表明,随着模型的迭代以及上下文学习的加入,模型的性能稳步提升,但是鲁棒性依然亟待提升.这些发现从任务类型、变形种类、提示内容等方面揭示了 GPT模型还无法完全胜任常见的NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决.通过对gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现进行对比,进一步验证了实验结论.鉴于此,未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力,并且应当在模型训练或微调阶段考虑提升其鲁棒性.

    鲁棒性GPT模型大语言模型自然语言处理可靠性

    基于知识编辑的大模型内容生成安全分析

    王梦如姚云志习泽坤张锦添...
    1143-1155页
    查看更多>>摘要:大语言模型(large language models,LLMs)虽然取得了显著的成功,但在实际应用中依然面临着安全问题,容易在恶意诱导下生成有毒、有害内容.目前缓解LLMs不安全行为的方法通常需要高昂的数据收集成本以及大量的计算资源.大模型知识编辑可以在不重新训练模型的基础上,根据特定的输入精确地改变模型对应的输出,在节约大量资源的条件下约束模型的行为;为优化大模型生成安全内容提供了一个新的可行思路.然而,目前学术界缺乏较为系统和全面的基于知识编辑的大模型内容安全生成分析数据集.具体地说,当前缓解LLMs不安全行为的数据集并未包括所有的不安全场景,且其有毒问题几乎无法绕过对齐后的LLMs安全防线,因此无法缓解对齐后LLMs存在的不安全问题.针对上述问题,设计了新的数据集SafeGen,并提出新的评价体系分析知识编辑在优化LLMs生成安全内容的潜力.大量的实验发现知识编辑可以提高LLMs内部的安全信念,在校正LLMs不安全行为领域展现了广阔的应用前景.但经过知识编辑的LLMs生成文本的流畅性却差强人意,这也表明了这项任务的潜在难度.该工作可以为大模型安全社区提供一些见解.

    大语言模型安全知识编辑内容生成越狱提示防御数据集

    面向大语言模型的越狱攻击综述

    李南丁益东江浩宇牛佳飞...
    1156-1181页
    查看更多>>摘要:近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出.越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类.详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考.对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较.在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望.

    生成式人工智能越狱攻击大语言模型自然语言处理网络空间安全

    基于感知相似性的多目标优化隐蔽图像后门攻击

    朱素霞王金印孙广路
    1182-1192页
    查看更多>>摘要:深度学习模型容易受到后门攻击,在处理干净数据时表现正常,但在处理具有触发模式的有毒样本时会表现出恶意行为.然而,目前大多数后门攻击产生的后门图像容易被人眼察觉,导致后门攻击隐蔽性不足.因此提出了一种基于感知相似性的多 目标优化隐蔽图像后门攻击方法.首先,使用感知相似性损失函数减少后门图像与原始图像之间的视觉差异.其次,采用多 目标优化方法解决中毒模型上任务间冲突的问题,从而确保模型投毒后性能稳定.最后,采取了两阶段训练方法,使触发模式的生成自动化,提高训练效率.最终实验结果表明,在干净准确率不下降的情况下,人眼很难将生成的后门图像与原始图像区分开.同时,在目标分类模型上成功进行了后门攻击,all-to-one攻击策略下所有实验数据集的攻击成功率均达到了 100%.相比其他隐蔽图像后门攻击方法,具有更好的隐蔽性.

    后门攻击隐蔽后门投毒攻击深度学习模型安全

    基于情感和认知协同的道德判断方法

    吴迪赵妍妍秦兵
    1193-1205页
    查看更多>>摘要:随着大语言模型的迅速发展,大语言模型的安全性逐渐引起了研究者和公众的密切关注.为了防止大语言模型在与人类协作中对人类产生伤害,如何确保大语言模型在日常场景中的判断能与人类道德观念相符成为了 一个重要问题.其中一个关键的挑战是,如何确保大语言模型在道德判断方面,能够像人类那样,针对不同的情境,灵活地调整或重新考虑预定的规则,从而使其判断与人类的道德观念保持一致.受心理学和认知科学中关于人类道德判断的情感和认知影响因素研究的启发,结合大语言模型在认知推理和情感分析能力上的优势,设计了 一种模仿人类道德判断过程中情感判断和认知判断能力交互的方法,从而提升了大语言模型的道德判断表现.实验结果证明了所提方法在该任务上的有效性.总的来说,不仅为大语言模型的道德判断提供了一种创新的方法,也强调了心理学与认知科学理论在此领域的重要性,为未来的进一步研究奠定基础.

    道德判断大语言模型安全认知判断能力情感判断能力提示学习

    基于多模态大语言模型的攻击性模因解释生成方法

    林萌戴程威郭涛
    1206-1217页
    查看更多>>摘要:随着5G的发展,攻击性言论逐渐以多模态的方式在社交网络上广泛传播.因此,攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用.现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容,忽略了模因包含的社会背景知识和隐喻表达手法,无法全面、准确地解释攻击性模因的含义,大大限制了解释的应用范围.为了应对这一挑战,提出一种基于多模态大模型的攻击性模因解释生成方法,通过增强攻击目标、攻击内容和隐喻识别等多种指令数据,利用其微调多模态大模型,以提升大模型对攻击性模因的解释生成能力.实验结果证实,该方法生成的解释具有3点优势:一是相比基线模型在BERTScore评估指标上提高了 19%;二是解释中包含了攻击性隐喻表达的相关背景知识;三是在处理未见的模因数据时也表现出良好的泛化性能.

    攻击性模因解释生成多模态大语言模型数据增强指令微调