首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    机器音译研究综述

    李卓王志娟赵小兵
    1-17页
    查看更多>>摘要:机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译.音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍.机器音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用.该文阐述了 目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该领域目前存在的问题进行了说明,并对音译学的未来进行了展望.该文旨在为进入该领域的新人提供快速的入门指南,或供其他研究者参考.

    音译综述语料库评价指标

    第四届中国情感计算大会(CCAC 2024)在南昌顺利召开

    中国中文信息学会
    17页

    基于概念预测和关系预测的AMR解析与对齐方法

    陈亮高博飞常宝宝张亦驰...
    18-30页
    查看更多>>摘要:抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中.AMR解析过程将自然语言转换成AMR图.虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息.为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库.然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息.因此,该文首次提出了 一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段.该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了 77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法.该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望.该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考.

    语义解析抽象语义表示中文自然语言处理

    基于词频掩码的对抗样本防御方法

    胡新荣徐策王帮超刘军平...
    31-39页
    查看更多>>摘要:深度神经网络(Deep Neural Networks,DNNs)在自然语言处理各项任务中均表现出良好性能,但它们易受到对抗性样本的干扰,导致DNNs模型的性能降低.而现有的对抗防御侧重于在训练阶段提升模型的鲁棒性,忽略了在推理过程中抵御对抗性攻击.针对此问题,该 文提出了词频检测-掩码恢复(Word Frequency detection Mask Recover,WFMR)的防御方法,该方法主要分两个步骤,通过词频异常检测WF和MR掩码恢复相结合来提升模型的鲁棒性.WF对句子中的单词进行词频检测,将低频的词视为异常单词,而MR通过掩码异常单词来使模型恢复到原始句子的周围.该文分别在三个数据集上利用四种攻击方法进行了综合实验,实验取得了良好的防御效果,验证了该方法的有效性.

    自然语言处理对抗防御词频检测掩码

    多层次权重优化的远程监督关系抽取模型

    刘正刘永坚解庆李琳...
    40-50,62页
    查看更多>>摘要:针对目前基于远程监督的关系抽取方法存在句袋权重分配不合理和关系抽取模型对句子关键特征提取不充分的问题,该文提出了 一种多层次权重优化的远程监督关系抽取模型.在句袋层面,通过构建编解码网络获取句子的表征向量并对句袋进行重构,使得句袋划分更加均衡;在句子层面,采用依赖路径注意力机制,增加模型对关键词的权重,提高关键特征的提取能力.模型在公共数据集NYT上的平均准确率达到79%,与有竞争力的主流方法相比有大约3%的提升,表明模型能够通过不同层次的权重优化降低噪声数据对模型的影响,从而提高关系抽取任务的准确率.

    远程监督关系抽取注意力机制语义相似度

    多策略黏菌算法优化BiLSTM的命名实体识别研究

    梁宏涛刘雨婷李帅高大唤...
    51-62页
    查看更多>>摘要:随着深度学习的深入研究,命名实体识别任务日益朝着智能化方向发展,但是命名实体识别模型还存在泛化能力弱、鲁棒性差等缺点,寻求更加高效的下游模型愈发成为研究重点.该文利用多策略黏菌算法(SLSMA)对双向长短时记忆网络模型(BiLSTM)的超参数进行优化,改进的黏菌算法在初始化阶段采用Sobol序列均匀种群密度,迭代后期引入莱维飞行策略动态调整步长,使算法跳出局部最优,并采用改进的黏菌算法优化BiLSTM网络的关键超参数进行命名实体识别,使用LSTM-CRF模型、BiLSTM-CRF模型、SMA-BiLSTM-CRF模型与SLSMA-BiLSTM-CRF模型进行命名 实体识别 的对比实验.实验结果表明,SLSMA-BiLSTM-CRF在《人民日报》和CoNLL2003数据集上的F1值分别达到98.48%和97.35%,有效提升了命名实体识别的精准性和鲁棒性.

    命名实体识别SLSMA双向长短时记忆网络Sobol序列

    面向长文本涉法舆情信息的混合式摘要方法

    席铁钧段宗涛曹建荣杨博...
    63-72页
    查看更多>>摘要:涉法舆情摘要旨在从冗长复杂的舆情文本中,准确地生成简短摘要.在长文本涉法舆情摘要中,现有的自动文本摘要方法存在语义不连贯、关键信息丢失的问题.为此,该文提出了一种结合抽取式和生成式的混合式摘要方法.首先将长文本分成多个语义片段;其次采用无监督对比学习方法微调RoBERTa-wwm-ext模型进行语义片段的表征;然后使用膨胀门卷积神经网络抽取与摘要相关的语义片段,合成抽取文本;最后通过微调预训练语言模型PEGASUS对抽取文本进行摘要生成,以获得最佳生成摘要.在CAIL 2022涉法舆情摘要数据集上的实验结果表明,相比于其他的基线模型,该方法能够生成ROUGE和BLEU得分更高的摘要,进一步提升了摘要的可靠性.

    涉法舆情摘要混合式摘要预训练语言模型

    事件信息采集中的事件监测项归约方法研究

    仲兆满李恒管燕李慧...
    73-83页
    查看更多>>摘要:随着互联网的飞速发展,从微博、贴吧、论坛、新闻网站等媒体获取关注的事件信息已经是互联网信息处理系统的基本功能.然而,面对大数据时代的媒体资源,如何全面、快速地获取关注的事件信息是值得深入研究的问题.该文针对事件信息采集效率低下的问题,揭示了事件之间的约束效应,为事件监测项、最简事件监测项的要素组成提供了指导;分析了最简事件监测项之间的相交关系,提出了事件监测项的归约方法,减少了用于搜采的监测项的数量.以一个市级地域SaaS平台和一个消防行业SaaS平台中的事件信息采集为实验对象,面向主流的内置搜索引擎,在事件监测项选取率和事件信息采集效率两方面进行了实验评测.结果表明,该文提出的事件监测项归约方法,减少了信息采集的次数,改善了事件信息采集的性能.

    事件信息采集内置搜索引擎事件约束效应事件监测项归约

    基于BERT嵌入与知识蒸馏的层次化课程主题分析研究

    郭振东林民李成城
    84-94页
    查看更多>>摘要:基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助.针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入与知识蒸馏的树结构神经主题模型.首先,通过构建BERT-CRF分词模型,使用少量领域文本对BERT进行二次训练,优化领域字的表示,动态融合二次训练后的BERT字嵌入,获取粗粒度领域词嵌入,缓解字粒度BERT嵌入与词袋表示不匹配问题;其次,针对词袋表示数据稀疏问题,以文档重构为 目标,构建BERT自编码器,蒸馏有监督的文档表示,指导主题模型的文档重构学习,提升主题质量;最后,优化树结构神经主题模型以拟合富含辅助信息的BERT词嵌入,并用有监督的蒸馏知识指导无监督主题模型的文档重构.实验表明,基于BERT嵌入与知识蒸馏的树结构神经主题模型具有预训练模型和主题模型的优良特性,能对课程主题进行更有效的归纳总结.

    树结构神经主题模型BERT知识蒸馏变分自编码器

    一种基于级联架构与多模型融合的知识型对话系统

    张松鸣王帅博陈钰枫任泓洁...
    95-105页
    查看更多>>摘要:知识对话任务旨在借助外部知识生成富信息的回复,主要包括用于知识检索的Query生成和融合知识的对话生成两方面.如何有效地生成知识检索Query以及高效地利用所检索到的知识生成对话仍是一个挑战.为了解决以上的问题,该文提出了一种基于级联式架构和多模型融合的知识型对话系统.针对知识检索Query生成任务,为了高精确率地检索知识,提出级联式解耦策略,即将知识检索Query生成任务划分为知识检索判别任务和检索Query生成任务.针对融合知识的对话生成任务,为了提高对话的一致性和多样性,首先进行了对话任务预训练,然后引入了多种对话训练策略进行训练,得到了多个高质量对话生成模型.基于不同对话模型产生的回复,提出了一种基于互投票的重排序策略.最终,该文所介绍的系统在"2022语言与智能技术竞赛:知识对话任务"中取得了 自动评估第一名、人工评估第三名的成绩.

    知识检索知识型对话重排序