首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    基于深度神经网络的实体链接研究综述

    张玥李韧杨建喜肖桥...
    1-14页
    查看更多>>摘要:实体链接旨在将文本中的实体指称映射到知识库中相应的实体,是知识图谱问答、智能推荐等下游任务的基础.近年来,深度神经网络和预训练语言模型的快速发展为实体链接方法研究提供了坚实基础,并取得了显著性能提升.该文对近期实体链接模型与方法进行了系统性的综述,主要从四个方面进行:第一,介绍实体链接的一般框架,包括候选实体生成、候选实体排序和不可链接指称预测;第二,分析低资源实体链接研究现状,包括跨语言迁移方法和跨领域迁移方法;第三,探讨面向特定领域的实体链接研究方法,重点介绍生物医学和社交媒体领域;第四,简述多模态实体链接相关成果.最后,该文分析了目前实体链接方法面临的技术挑战,并展望了未来的研究趋势.

    实体链接深度学习低资源特定领域综述

    基于特征融合的汉语被动句自动识别研究

    胡康曲维光魏庭新周俊生...
    15-24页
    查看更多>>摘要:汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句.由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义.该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别.实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F,值达到98.77%,无标记被动句识别F1值达到96.72%.

    汉语被动句自动识别特征融合语料库

    融合知识的多目标词联合框架语义分析模型

    陈旭东郑策常宝宝
    25-33页
    查看更多>>摘要:框架语义分析任务是自然语言处理领域的一项基础性任务.先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取.该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测.该模型对框架语义分析的各项子任务进行交互性建模,实现子任务间的双向交互.此外,该文利用关系图网络对框架关系信息进行编码,将其作为框架语义学知识融入模型中.实验表明,该文模型在不借助额外语料的情况下相比之前模型都有不同程度的提高.消融实验证明了该文模型设计的有效性.此外,该文分析了模型目前存在的局限性以及未来的改进方向.

    框架语义分析框架网络

    第十九届中国中文信息学会暑期学校暨《前沿技术讲习班》(CIPS ATT 43&44)将于8月21日在京举办

    中国中文信息学会
    33页

    基于提示微调的汉语词汇简化研究

    肖子豪程苗苗巩捷甫韩旭...
    34-43页
    查看更多>>摘要:词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性.该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simpli-fication).PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数.在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS.深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升.

    词汇简化提示学习提示微调文本简化小样本学习

    全国知识图谱与语义计算大会和知识图谱国际联合会议(CCKS-IJCKG 2024)开启注册

    中国中文信息学会
    43页

    基于改进蚁群算法的对抗样本生成模型

    刘文娟吴厚月张顺香
    44-54页
    查看更多>>摘要:传统的文本生成对抗方法主要采用位置置换、字符替换等方式,耗费时间较长且效果较差.针对以上问题,该文提出一种基于改进蚁群算法的对抗样本生成模型IGAS(Improved ant colony algorithm to Generate Adversarial Sample),利用蚁群算法的特点生成对抗样本,并利用类形字进行优化.首先,构建城市节点群,利用样本中的词构建城市节点群;然后对原始输入样本,利用改进的蚁群算法生成对抗样本;再针对生成结果,通过构建的中日类形字典进行字符替换,生成最终的对抗样本;最后在黑盒模式下进行对抗样本攻击实验.实验在情感分类、对话摘要生成、因果关系抽取等多种领域验证了该方法的有效性.

    蚁群算法对抗样本生成类形字黑盒攻击

    基于门控机制多模态信息融合的图像描述翻译

    李志峰徐旻涵洪宇姚建民...
    55-67页
    查看更多>>摘要:图像描述翻译是给定图像和图像对应某一语言的描述,采用神经网络以端到端方式融合图像和文本两种模态信息,利用翻译技术为图像描述生成目标语言的任务.传统图像描述翻译,在将源语言翻译成目标语言时,借助图像中的重要特征优化翻译过程.翻译过程中,目标词的生成依赖于源语言上下文和目标语言上下文信息.通过观察发现,源语言上下文偏于影响翻译结果的充分性和忠实度,而目标语言上下文偏于影响翻译结果的流畅性和衔接度.由于缺少有效机制来调节两种上下文信息的贡献度,翻译模型会生成流畅但不充分或者充分但不流畅的句子.针对以上问题,该文提出一种基于门控机制多模态信息融合的解码方法,用于优化现有图像描述翻译模型.该文模型通过源上下文门控调整图像特征和每个源语言词的重要度,过滤掉图像中不相关的特征;通过目标上下文门控动态调整源语言上下文和目标语言上下文对翻译结果的贡献度,从而有效提高翻译结果的充分性和流畅性.在Multi30k数据集上进行实验,验证了上述方法的有效性,在Multi30k-16英德和英法以及Multi30k-17英德和英法测试集上,BLEU-4值对比基准系统分别提升了 1.3、1.0、1.5和1.4个百分点.

    图像描述翻译多模态机器翻译上下文门控忠实度及流畅度

    面向标记语言的机器翻译方法研究

    杜权曾信李北刘辉...
    68-75页
    查看更多>>摘要:标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题.针对这些难题,该文提出基于组合泛化的标记语言建模方法.同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F1值等指标来衡量标记语言格式还原效果.实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近 100%.

    标记语言机器翻译基于泛化的建模方法

    基于预训练的藏医药实体关系抽取

    周青拥措拉毛东只尼玛扎西...
    76-83页
    查看更多>>摘要:藏医药领域的文本主要以非结构化形式保存,藏医药文本的信息抽取对挖掘藏医药的知识有重要作用.针对现有藏文实体关系抽取模型语义表达能力差、嵌套实体抽取准确率低的问题,该文介绍了一种基于预训练模型的实体关系抽取方法,使用TibetanAI_ALBERT_v2.0预训练语言模型,使得模型更好地识别实体,使用Span方法解决实体嵌套问题.在Dropout的基础上,增加了一个KL散度损失函数项,提升了模型的泛化能力.在Tibet-anAI_TMIE_v1.0藏医药数据集上进行了实验,实验结果表明,精确率、召回率和F1值分别达到了 84.5%、80.1%和82.2%,F1值较基线提升了 4.4个百分点,实验结果证明了该文方法的有效性.

    藏医药实体关系抽取预训练语言模型