首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    中国中文信息学会关于开展2023年度国家科学技术奖提名工作的通知

    中国中文信息学会
    96页

    基于注意力与同指信息的对话级关系抽取

    周孟佳李霏姬东鸿
    97-106页
    查看更多>>摘要:与传统的关系抽取任务相比,对话级关系抽取任务具有语言随意、信息密度低、人称代词丰富的特点.基于此,该文提出了一种基于注意力和同指信息的对话级关系抽取模型.模型采用 TOD-BERT(Task-Oriented Dialogue BERT)和BERT预训练语言模型增强对话文本表示,通过注意力机制建模词与各种关系之间的相互影响,使模型能更多地关注有益信息.另外,该文提出的模型还融合了与人称代词相关的同指信息以丰富实体的表示.作者在对话级关系抽取数据集DialogRE上验证所提出模型的性能.结果表明,该模型在 DialogRE 测试集上的F1 值达到了 63.77%,较之于多个基线模型有明显提升.

    关系抽取注意力机制同指信息对话

    基于篇章图模型的中文事件时序关系识别

    李婧徐昇李培峰
    107-114页
    查看更多>>摘要:事件时序关系识别是信息抽取中一项十分重要且极具挑战性的任务.此前大部分工作都集中在句子级别上,忽略了篇章级别(同句、邻句和跨句)的事件时序关系识别.针对此问题,该文提出了一种基于篇章图模型的篇章级事件时序关系识别方法,该方法通过分别构造句法层次和篇章级别的图卷积神经网络将篇章中融合了句法特征的所有事件进行信息交互,以达到丰富特征的目的,进而使得模型可更好地识别篇章级时序关系.该文提出的方法在 ACE2005-extended 中文事件时序关系语料库上的微平均F1 值达到 71.81%,比最好的基准系统提升了1.76 个百分点.

    事件时序关系篇章级别图卷积神经网络

    基于微调原型网络的小样本敏感信息识别方法

    余正涛关昕黄于欣张思琦...
    115-123页
    查看更多>>摘要:敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳.该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题.首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上.实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果.

    敏感信息识别小样本学习微调策略原型网络

    细粒度情感和情绪分析中损失函数的设计与优化

    叶施仁丁力Ali MD Rinku
    124-134页
    查看更多>>摘要:在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出.类别标签分布不均匀,标签之间存在相关性容易影响学习模型的性能.针对这一问题,该文受计算机视觉领域中的 Circle loss 方法的启发,将梯度衰减、成对优化、添加余量引入损失函数来优化深度学习模型的性能.该方法可以很好地与预训练模型相结合,不需要修改骨干网络.与当前最新的经典方法相比,该方法在 SemEval18 数据集上Jaccard系数、micro-F1、macro-F1 分别提升了 1.9%、2%、1.9%;在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1 分别提升了 2.6%、1.9%、3.6%.实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用.

    情感分析情绪分析成对优化损失函数

    基于双三元组网络的易混淆文本情感分类方法

    徐瑞曾诚程世杰张海丰...
    135-145页
    查看更多>>摘要:预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果.针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法.该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果.在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1 值上具有更好的表现,其中F1 值相较于基准模型提升了 3.16%、2.35%和 2.5%,验证了所提方法的有效性和合理性.

    情感分类三元组网络困难样本

    第九届中国科协青年人才托举工程入选名单发布,中国中文信息学会推荐4人入选!

    中国中文信息学会
    145页

    融入法因层次结构的法因预测IHLCP模型

    黄思嘉彭艳兵
    146-155页
    查看更多>>摘要:该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题,设计了一种可解释性层次法因预测 IHLCP模型,并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究.模型首先基于案件的语义差异性对事实描述进行编码,然后通过改进的 seq2seq-attention模块来预测法因路径,并利用法因内部的文本信息过滤事实描述中的噪声信息,以获得可靠的预测效果.该文设计的 IHLCP 模型在CIVIL、FSC和CAIL这三个大规模公开数据集上分别达到了当前最好的效果(CIVIL 数据集:ACC-91.0%,PRE-67.5%,RECALL-57.9%,F1-62.3%.FSC数据集:ACC-94.9%,PRE-78.8%,RECALL-75.9%,F1-77.3%.CAIL数据集:ACC-92.3%,PRE-90.9%,RECALL-89.7%,F1-90.3%),其中ACC和F1 值分别最高提升了 6.6%和 13.4%.实验结果表明,该设计能够帮助系统理解法因,弥补了当前法律智能体系在低频、易混淆法因预测上的不足,同时提升了模型的可解释性.

    层次法因预测可解释性语义差异性数据不平衡低频类别预测

    非结构化数据表征增强的术后风险预测模型

    王亚强杨潇朱涛郝学超...
    156-165页
    查看更多>>摘要:准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用.目前,术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据,蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证.针对上述问题,该文提出一种非结构化数据表征增强的术后风险预测模型,利用自注意力机制,将结构化数据与术前诊断进行信息加权融合.基于临床数据,该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比,在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1 值平均提升了 9.533%,同时预测模型还具有良好的可解释性.

    术后风险预测自注意力机制数据表征信息融合

    基于不同单元的端到端语音识别

    张岩艾斯卡尔·艾木都拉米吉提·阿不里米提
    166-172页
    查看更多>>摘要:端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景.该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的 HMM语音识别框架进行比较.单音素基础上端到端方法的表现超过传统 HMM-GMM框架,CER下降 10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的 HMM-GMM系统 CER 下降 2.23%.对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标.

    端到端技术语音识别维吾尔语链接时序分类