首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    基于跨证据文本实体关系构建的事实核查研究

    贺彦程徐冰朱聪慧
    93-101,112页
    查看更多>>摘要:事实核查是指基于证据文本的虚假信息检测任务,目前已有的研究方法主要是将声明文本与证据文本拼接后输入预训练模型进行分类判断,或者通过单一节点的全连接图进行推理判断.这些方法忽略了证据文本间的远距离语义关联和其包含的噪声干扰.针对以上问题,该文提出了一种基于跨证据文本实体关系的图卷积神经网络模型(Cross-Evidence Entity Relation Reasoning Model,CERM).该模型以多个证据文本的实体共现关系为基础,聚合不同实体对象的语义结构信息,同时减小噪声信息干扰,有效提升模型的虚假信息判别能力.实验结果证明,在公开数据集上该文提出的方法在通用评测指标上均优于现有的对比模型,验证了 CERM模型在事实核查研究任务上的有效性.

    事实核查图卷积神经网络实体关系

    基于预训练的谷歌搜索结果判定

    张恩伟胡凯卓俊杰陈志立...
    102-112页
    查看更多>>摘要:对搜索引擎返回的结果进行初步判定有利于优化语义搜索过程,提高搜索的准确性和效率.谷歌搜索引擎在所有的搜索引擎中占据主导地位,然而其返回的结果往往非常复杂,目前并没有有效的方法能够对搜索页面的结果做出准确的判断.针对以上问题,该文从数据特征和模型结构设计出发,制作了一个适用于谷歌搜索结果判定的数据集,接着基于预训练模型设计了一种双通道模型(DCFE)用于实现对谷歌搜索结果的判定.该文提出的模型在自建数据集上的准确率可以达到 85.74%,相较于已有的模型拥有更高的精度.

    谷歌搜索预训练深度学习

    融合动态掩码注意力与多教师多特征知识蒸馏的文本分类

    王润周张新生王明虎
    113-129页
    查看更多>>摘要:知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断.现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合.此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息.为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰.在 4 种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型 1/10 的参数量、约 1/2 的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和 3.33%,平均F1 值仅下降 2.30%和 2.38%.其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息.

    动态掩码注意力多教师多特征知识蒸馏文本分类

    第十届全国少数民族自然语言处理青年论坛征文通知

    中国中文信息学会
    129页

    基于小句复合体的中文机器阅读理解研究

    王瑞琦罗智勇刘祥韩瑞昉...
    130-140页
    查看更多>>摘要:机器阅读理解任务要求机器根据篇章文本回答相关问题.该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题.该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句复合体中跨标点句话头-话体共享关系,来降低机器阅读理解任务的难度;并设计与实现了基于小句复合体的机器阅读理解模型.实验结果表明,在问题线索要素与答案跨越多个标点句时,答案抽取的精确匹配率(EM)相对于基准模型提升了 3.49%,模型整体的精确匹配率提升了 3.26%.

    机器阅读理解跨标点句问答小句复合体

    基于技能网络的通用自然语言生成模型

    廖俊伟程帅
    141-151页
    查看更多>>摘要:使用多任务训练的自然语言生成模型仅使用一个模型即可完成各种不同的自然语言生成任务.但这种所有任务共享所有参数的模型,无法清楚地知道模型的每一部分参数学到了什么技能.为了根据不同的任务选择激活不同的模型参数,该文提出了一种基于稀疏激活的通用自然语言生成模型(SkillNet-NLG).与传统的稠密模型在执行任务时激活所有的模型参数不同,SkillNet-NLG在执行任务时,首先依据任务预先定义一组完成任务所需要的技能,然后根据定义的技能选择性地激活与技能相关的模型参数.这种模型设计使其能够通过正确地选择与任务相关的技能来高效地学习新的任务.在中文自然语言生成任务上的实验结果表明,首先,在仅使用一个模型的情况下,SkillNet-NLG在常见的五个自然语言生成任务中的四个上面超过了当前最好方法;其次,SkillNet-NLG的表现优于另外两类多任务基线模型(稠密模型和混合专家模型),并取得了与针对特定任务单独训练的模型相当的性能;最后,当应用到新任务上时,SkillNet-NLG相较于所有基线方法取得了更好的结果,验证了该文所提出的方法对于学习新任务的有效性.

    自然语言生成多任务模型稀疏激活模型技能网络

    古汉语通假字资源库的构建及应用研究

    王兆基张诗睿胡韧奋张学涛...
    152-162页
    查看更多>>摘要:古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战.为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库.其中,语料库收录 11 000 余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含 4 185 个字节点和 8 350 对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据 19 678 条.在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法.进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用.

    古代汉语资源库通假字自动识别

    评测任务征集|全国知识图谱与语义计算大会和知识图谱国际联合会议联办(CCKS-IJCKG 2024)

    中国中文信息学会
    162页

    基于动态常识推理与多维语义特征的幽默识别

    吐妮可·吐尔逊闵昶榮林鸿飞张冬瑜...
    163-172页
    查看更多>>摘要:随着社交媒体的飞速发展,幽默识别任务受到研究者广泛关注.其目标是判断给定文本是否具有幽默表达.现有方法主要基于幽默产生理论,采用规则或神经网络模型提取多种幽默相关特征,如不一致性、情感和语音等.然而,这些方法未充分捕捉文本内部的情感特征,忽视了隐含在幽默文本中的情感表达,影响了幽默识别的准确性.为解决此问题,该文提出了CMSOR方法,以动态常识和多维语义特征为驱动.首先,利用外部常识信息从文本中动态推理说话者的隐式情感表达;然后,引入 WordNet词典计算词级语义距离,捕捉不一致性,并计算模糊性特征;最后,基于这三个特征维度构建幽默语义,实现幽默识别.实验证明,CMSOR模型相对于当前基准模型在三个公开数据集上的识别性能均有显著提升.

    幽默识别常识推理模糊理论注意力机制