首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    文本中事件因果关系识别与应用技术综述

    李顺航周刚卢记仓李志博...
    1-23页
    查看更多>>摘要:事件因果关系是一类重要的逻辑关系,其揭示了事件发展的动因与规律.通过自然语言处理技术对事件之间蕴含的因果关系进行识别,能够帮助形成事件因果知识库,进而促进诸如事件预测、智能问答等下游任务性能提升与可解释性增强,具有重要理论与实践价值.基于此,该文围绕事件因果关系识别与应用展开综述.首先,介绍文本中事件因果关系、因果关系识别等基本概念与任务定义,明确研究范畴;随后,总结归纳因果关系识别任务常用数据集与评测指标,并对典型评测数据集进行探索分析,进而充分挖掘任务固有难点;然后,按照基于规则挖掘、基于特征工程和基于深度学习三个类别对因果关系识别相关模型与方法进行划分,并给出系统阐释、对比和总结,并对事件因果关系支撑的下游应用场景与方法进行了概述,进一步说明了事件因果关系的重要应用价值;最后,针对文本中事件因果关系识别任务的现有挑战和未来技术方向进行了讨论与展望.

    因果关系识别自然语言处理深度学习数据增强知识提升

    基于同构查询校准的知识图谱复杂逻辑推理

    汤宇轩申彦明齐恒尹宝才...
    24-35页
    查看更多>>摘要:知识图谱复杂逻辑推理是知识图谱中的一项重要任务,其目的是根据给定的起始节点和逻辑表达式来推理出答案节点.先前的工作主要关注的是如何对实体、关系和查询进行建模,忽略了相似查询对当前查询的影响.因此,该文提出了 一种相似查询的定义(称之为同构查询),并设计了一种基于同构查询的组件,它可以利用同构查询的特性,在推理的每一步缩短查询嵌入和答案嵌入之间的距离,在不改变原有复杂逻辑推理模型结构的基础上提升模型的性能.实验结果表明,该文提出的组件可以在不同的数据集上为各类不同的基线模型带来1.6%-3.3%的提升,证明了该方法的有效性与灵活性.

    知识图谱复杂逻辑推理同构查询

    基于多级特征融合和强化学习的多模态实体对齐

    李华昱王翠翠张智康李海洋...
    36-47页
    查看更多>>摘要:针对传统实体对齐方法未充分利用多模态信息,且在特征融合时未考虑模态间潜在的交互影响等问题,该文提出了一种多模态实体对齐方法,旨在充分利用实体的不同模态特征,在不同多模态知识图谱中找到等价实体.首先通过不同的特征编码器获得属性、关系、图像和图结构的嵌入表示,同时引入数值模态以增强实体语义信息;其次在特征融合阶段,在对比学习的基础上同时进行跨模态互补性和相关性建模,并引入强化学习优化模型输出,减小获得的联合嵌入和真实模态嵌入之间的异构差异;最后计算两个实体之间的余弦相似度,筛选出候选对齐实体对,并将其迭代加入对齐种子,指导新的实体对齐.实验结果表明,该文所提方法在多模态实体对齐任务中是有效的.

    多模态知识图谱表示学习实体对齐特征融合

    基于多模板提示调优和知识增强的事件因果关系识别方法

    张虎李壮壮王宇杰李茹...
    48-57页
    查看更多>>摘要:事件因果关系识别(Event Causality Identification,ECI)是自然语言处理领域的一项重要研究任务,旨在识别文本中事件之间的因果关系.现有方法大都基于微调范式,不能较好发挥预训练语言模型的作用,难以有效捕获隐式因果关系识别的线索.为此,该文提出了一种基于多模板提示调优和知识增强的事件因果关系识别方法.针对ECI任务设计独特的总提示模板,对显式和隐式事件因果关系分别设计不同的种子提示模板,集成训练所有提示模板,形成适应于ECI任务的提示调优方式.通过引入ConceptNet、Oxford Dictionaries等外部知识库,丰富事件的解释性知识和事件之间的关系性知识,将不同的知识融入提示模板,强化隐式因果关系线索.在EventStoryLine和Causal-TimeBank两个广泛使用的数据集上的实验结果表明,该文方法性能优于现有方法.

    事件因果关系识别知识增强提示调优因果关系

    基于GraphSAGE网络的藏文短文本分类研究

    敬容杨逸民万福成国旗...
    58-65页
    查看更多>>摘要:文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢.因此,该文以图神经作为基础模型进行改进.首先,在"音节-音节""音节-文档"建模的基础上,融合文档特征,采用二元分类模型动态网络构建"文档-文档"边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值.其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异.最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力.在TNCC标题文本数据集上,该文模型的分类准确率达到了 62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了 2.56%、1%和2.4%.

    图神经网络藏文文本分类TNCC数据集

    结合数据增强方法的藏文预训练语言模型

    色差甲班马宝才让加柔特...
    66-72页
    查看更多>>摘要:最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式.在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题.首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型.实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果.

    藏文预训练语言模型文本数据增强方法UniLM模型

    藏语视角下的HowNet共性知识体系研究

    姚洲赵小兵
    73-81页
    查看更多>>摘要:HowNet是我国知识库研究的奠基性成果.目前HowNet已构建出汉英双语的知识表征模式,并在语义相似度计算、向量表示等技术领域取得了较好的效果,但现有研究对HowNet共性知识体系本身的合理性以及跨语言的适应性仍缺乏有益探索.藏语作为施通格语言,与汉语、英语具有较大差别,有助于检验HowNet共性知识体系的合理性.该文以具体藏文实例为依据,从藏语格助词的表义性、动词能所关系以及语义分类特征等方面指出HowNet共性知识体系的跨语言适应性有待完善;结合原型理论及藏文能所关系,以提升HowNet共性知识体系的科学性,并据此对HowNet知识体系的架构数据进行修正.

    藏语HowNet共性知识体系

    完全端到端的藏语语音合成方法

    拉巴顿珠官政先德庆卓玛张恒...
    82-92,116页
    查看更多>>摘要:在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化.该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用.首先,通过自然语音采集、自动标注和声学分析等构建一个7 000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验.同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息.实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题.

    语音合成藏语音节结构字音转换端到端

    融合汉字多级特征与文本局部特征的中文命名实体识别

    张慧秦董洪白凤波罗余特...
    93-107页
    查看更多>>摘要:针对目前中文命名实体识别模型在复杂语境下准确率较低的问题,添加更多汉字特征以弥补词向量表形、表音方面的不足,引入更多先验知识,丰富语义特征;同时设计一种兼顾全局特征与局部特征的编码器,提升模型面对复杂语境时的鲁棒性与泛化性;实验结果表明,该文提出的方法在 Weibo、OntoNotes 5.0、Boson、People Daily数据集上F,值分别提升1.61、0.37、0.98、0.98,验证汉字本身特征的重要性与通用性的同时,也验证了文本局部特征有助于提升模型性能.此外,还探究了八种不同汉字编码方式对模型性能的影响,实验证明相比于单个拼音字符,汉字的声母、韵母携带更多发音信息,音调、多音字等特征也有利于提升模型性能;最后,在多种文本实例上测试了模型性能,实验结果表明了该文工作的有效性.

    字形特征拼音特征文本局部特征命名实体识别

    图注意力网络与句法融合的医疗实体识别

    白宇何佳蔚张桂平
    108-116页
    查看更多>>摘要:电子病历数据中包含大量的医疗实体词,对这些实体词的自动识别有益于提升计算机对电子病历数据的理解.待识别的医疗实体词通常由医疗专业术语和非规范医疗词汇构成,大量生僻词汇、长难词汇和病历行文中的省略现象给医疗实体识别任务带来了挑战.针对以上问题,该文提出一种图注意力网络与句法融合的医疗实体识别方法,该方法结合字词共现关系和句法依存关系,基于电子病历数据构建了交互式字词关系图和依存关系图,并利用图注意力网络完成多种图信息的融合.实验结果表明,在电子病历的命名实体识别中,该文方法得到88.91%的F1值,较基线模型提高1.04%,验证了该方法的有效性.

    电子病历命名实体识别图注意力网络