首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    大语言模型评测综述

    罗文王厚峰
    1-23页
    查看更多>>摘要:大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能.然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题.现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等.同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显.该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向.

    自然语言处理大语言模型模型评测

    医疗领域对话系统口语理解综述

    任芳慧郭熙铜彭昕杨锦锋...
    24-35页
    查看更多>>摘要:ChatGPT引发了新一轮的科技革命,使得对话系统成为研究热点.口语理解(Spoken Language Under-standing,SLU)作为任务型对话系统的第一部分,对系统整体的表现具有重要影响.在最近几年中,得益于大规模语言模型的成功,口语理解任务取得了较大的发展.然而,现有工作大多基于书面语数据集完成,无法很好地应对真实口语场景.为此,该文面向与书面语相对的口语,重点关注医疗领域这一应用场景,对现有的医疗领域对话系统口语理解任务进行综述.具体地,该文阐述了医疗口语理解任务的难点与挑战,并从数据集、算法和应用的层面梳理了医疗口语理解的研究现状及不足之处.最后,该文结合生成式大模型的最新进展,给出了医疗口语理解问题新的研究方向.

    任务型对话系统口语理解医疗领域生成式大模型

    第二十三届中国计算语言学大会(CCL 2024)征稿启事

    中国中文信息学会
    35页

    面向新词义原推荐的相似性判别方法

    白宇田雨王之光张桂平...
    36-44页
    查看更多>>摘要:义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是 HowNet自动或半自动扩展中涉及的关键问题.面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT.在判别新词与 HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合.实验结果表明,采用 SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1 值分别达到 0.831 4、0.800 7 和 0.815 8.在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题.

    义原推荐相似性同构知网

    子图增强的实时同名消歧

    韩天翼程欣宇张帆进陈波...
    45-56页
    查看更多>>摘要:实时同名消歧旨在实时、准确地将具有歧义的作者姓名的新增论文关联到同名候选作者中的正确作者.当前同名消歧算法主要解决冷启动同名消歧问题,较少探索如何高效并有效地解决实时同名消歧问题.该文提出了子图增强的实时同名消歧模型 RND-all,该模型通过高效地融合待消歧论文与候选作者之间的结构特征来提升模型的准确率.模型根据待消歧论文的属性与同名候选作者的档案分别构建子图,使用子图结构特征提取框架来计算图相关性特征,最后,通过特征工程以及文本嵌入方法计算语义匹配特征,并利用集成学习实现语义信息与结构信息的融合.实验结果表明,融入结构信息能够有效提升实时同名消歧任务的准确性,RND-all在百万级同名消歧基准 WhoIsWho测试集上效果排名第一.

    实时同名消歧图神经网络结构信息集成学习

    欢迎订阅《中文信息学报》

    56页

    探索中文预训练模型的混合粒度编码和IDF遮蔽

    邵云帆孙天祥邱锡鹏
    57-64页
    查看更多>>摘要:目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销.词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等.针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型.这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题.为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF 遮蔽.这一策略基于词在大规模预训练语料上统计的逆文档频率.实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本.

    中文预训练混合粒度编码IDF遮蔽

    基于全局对抗负样本的图对比学习方法

    岑科廷沈华伟曹婍徐冰冰...
    65-73,85页
    查看更多>>摘要:图对比学习在无监督节点表示方面取得了巨大成功.该类模型旨在通过拉近同一节点对应的不同增强节点的表示(正样本),推远不同节点的表示(负样本)的方式为每个节点学习表示.其中负样本的选择是图对比学习的一个关键.现有的方法通过随机采样或者根据一些启发式的重要性度量标准为每个节点选择对应的负样本.然而上述方法并不能准确地找到对模型关键的负样本.同时,由于需要为每一个节点选取其对应的负样本,导致高昂的时间开销.为了解决上述问题,该文提出通过对抗学习的方式,为所有节点学习一个全局共享的关键的负样本.在多个基准数据集上的实验结果证明了该方法的效率和有效性.

    图表示学习图对比学习对抗负样本全局负样本

    InstructGPT在命名实体识别任务中的表现和挑战

    孙瑜颜航邱锡鹏王定...
    74-85页
    查看更多>>摘要:当前,关于大规模语言模型,例如,InstructGPT的研究主要聚焦在自由形式生成任务上,而忽略了在结构化抽取任务上的探索.为了让未来的工作在结构化抽取任务上有一个全面的认知,该文在零样本和少样本设定下,全面分析了 InstructGPT在基础的结构化抽取任务,命名实体识别上的表现.为了让结论更加可靠,该文的实验同时包含了生物医学领域和通用领域的常规和嵌套数据集.实验结果表明,InstructGPT 在零样本学习上的性能只能达到微调小规模语言模型的 11%~56%,增加少量样本也最多只能提升至 72%.为了探究 InstructGPT在命名实体识别上表现性能不佳的原因,该文通过分析模型的输出,发现接近 50%的句子都存在无效生成的问题.另外,由于无效生成会同时导致"虚假错误预测"和"虚假正确预测",解决生成无效问题并不能保证性能的提升.此外,InstructGPT抽取嵌套实体的能力还是有待提高,抽取嵌套实体的比例也偏低.因此,用InstructGPT解决命名实体识别任务,除了要保证生成的有效性,还需要更加深入地研究才能找到行之有效的方法.

    大规模语言模型命名实体识别上下文学习思维链

    融合目标词上下文序列与结构信息的框架识别方法

    闫智超李茹苏雪峰李欣杰...
    86-96页
    查看更多>>摘要:框架识别是框架语义角色标注的重要前提,该任务是为给定句子中的目标词寻找一个可激活的框架.框架识别通常看作是针对目标词的分类问题,一般采用序列建模的方式学习融合上下文的目标词表示.该方式忽略了目标词所在上下文的结构信息,且在建模时未考虑不同词性目标词在句法和语义结构上的差异.针对这些不足,该文提出了一种融合目标词上下文序列与结构信息的框架识别方法,该方法使用BERT和 GCN分别对不同词性目标词的上下文信息和融合PropBank语义角色或依存句法结构信息的目标词进行建模,然后得到融合序列和结构信息的目标词表示.另外,该文分析了不同词性目标词依存信息的结构差异,采用一种集成学习方法克服了单一模型在此方面的不足.最后,在 FN1.7 和CFN数据集上的实验结果表明,融合目标词上下文序列与结构信息的框架识别方法在性能上优于当前最好模型.

    框架识别语义角色依存句法BERTGCN