首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    抽象语义表示解析方法研究综述

    尹华卢懿亮季跃蕾吴梓浩...
    1-23页
    查看更多>>摘要:句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题.抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力.因为AMR解析效果会影响下游 NLP任务的表现,所以解析方法成为近年的国内外研究热点.由于时效性因素,既有 AMR综述未涉及新涌现的解析方法,亟需深度聚焦其前沿文献.该文首先采用CiteSpace工具分析了AMR的总体研究情况.相比英文 AMR解析研究,中文 AMR解析研究成果数量相对较少,尚有较大的发展空间.进而分析了 AMR语料库发展和 AMR解析面临的概念和概念关系识别、对齐以及融入结构信息等问题.根据不同的解析策略将解析方法分为4 类,以问题为驱动,剖析了各类 AMR解析方法的演进.最后,选择 21 个英文 AMR解析器、7 个中文 AMR解析器,比较分析 Smatch等各项实验指标.归纳实验结果发现,现有模型在学习复杂多语义关系方面亟待加强.该文通过理论和实证分析为研究者提供 AMR解析方法的发展脉络和研究思路.

    抽象语义表示解析方法语料库自然语言处理

    第二十三届中国计算语言学大会(CCL 2024)第二轮征稿启事

    中国中文信息学会
    23页

    SaGE:基于句法感知图卷积神经网络和ELECTRA的中文隐喻识别模型

    张声龙刘颖马艳军
    24-32页
    查看更多>>摘要:隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义.针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和 ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA,SaGE).该模型从语言学出发,使用 ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别.该模型在CCL 2018 中文隐喻识别评测数据集上以 85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用.

    隐喻识别ELECTRA图卷积神经网络依存句法

    基于GCN和门机制的汉语框架排歧方法

    游亚男李茹苏雪峰闫智超...
    33-41页
    查看更多>>摘要:汉语框架排歧旨在在候选框架中给句子中的目标词选择一个符合其语义场景的框架.目前研究方法存在隐层向量的计算与目标词无关、忽略了句法结构信息对框架排歧的影响等缺陷.针对上述问题,该文使用 GCN对句法结构信息进行建模;引入门机制过滤隐层向量中与目标词无关的噪声信息;并在此基础上,提出一种约束机制来约束模型的学习,改进向量表示.该模型在CFN、FN1.5 和FN1.7 数据集上优于当前最好模型,证明了该方法的有效性.

    汉语框架排歧句法信息GCN门机制

    基于汉字形音义多元知识和标签嵌入的文本语义匹配模型

    赵云肖李茹李欣杰苏雪峰...
    42-55页
    查看更多>>摘要:文本语义匹配指基于给定的文本判别文本之间的语义关系.针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响.因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法.首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别.在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性.

    汉字形音义多元知识标签嵌入文本语义匹配

    第十八届全国知识图谱与语义计算大会(CCKS 2024)征稿通知

    中国中文信息学会
    55页

    面向机器阅读理解的高质量藏语数据集构建

    孙媛刘思思陈超凡旦正错...
    56-64页
    查看更多>>摘要:机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度.其中,数据集的构建是机器阅读理解的主要任务之一.目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现.但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段.该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含 20 000 个问题答案对和 1 513 篇文章.该数据集的文章均来自云藏网,涵盖了自然、文化和教育等 12 个领域,问题形式多样且具有一定的难度.另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量.最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索.

    机器阅读理解低资源语言藏语数据集

    基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取

    于韬拥措高兴尼玛扎西...
    65-74,83页
    查看更多>>摘要:实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系.该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:①使用嵌套实体标注策略突破原有标注方法的局限;②使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化.实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1 值为 79.23%.同时,为了证明该文模型的鲁棒性及有效性,还在 SKE及 NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法.

    藏医药实体关系联合抽取多特征融合奖惩机制

    基于指针标注的跨境民族文化实体关系抽取方法

    杨振平毛存礼雷雄丽黄于欣...
    75-83页
    查看更多>>摘要:跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题.考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题.实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F1 值提升了 2.34%.

    跨境民族文化实体关系抽取指针标注领域词典信息

    融合领域知识图谱的跨境民族文本聚类方法

    陈春吉毛存礼张勇丙黄于欣...
    84-92页
    查看更多>>摘要:跨境民族文本聚类任务旨在建立跨境民族不同文本间的关联关系,为跨境民族文本检索、事件关联分析提供支撑.但是跨境民族间文化文本表达差异大,加上文化表达背景缺失,导致跨境民族文本聚类困难.基于此,该文提出了融合领域知识图谱的跨境民族文本聚类方法,首先融入跨境民族领域知识图谱,实现对跨境民族文本数据的文化背景知识补充及实体语义关联,从而获得文本的增强局部语义;同时考虑到跨境民族文本数据中全局语义信息的重要性,采用异构图注意力网络提取文本、主题、领域关键词之间的全局特征信息;最后利用变分自编码网络进行局部信息和全局信息的融合,并利用学习到的潜在特征表示进行聚类.实验表明,提出方法较基线方法Acc提升 11.4%,NMI提升 1%,ARI提升 9.4%.

    跨境民族知识图谱文本聚类异构图注意力网络