首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    关键词提取算法研究综述

    崔洪振张龙豪彭云峰邬雯...
    1-14,24页
    查看更多>>摘要:关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容.关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题.关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用.该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战.

    关键词提取特征有监督提取方法

    基于短语及依存的标注规则和短语识别算法研究

    刘广涂刚李政刘译键...
    15-24页
    查看更多>>摘要:目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型.该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构.为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型.该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别.实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1 值提升超过1个百分点.相应的方法应用到了 CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了 1个百分点以上,取得第一名成绩.

    自然语言处理标注体系短语识别依存分析

    基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注

    王超吕国英李茹柴清华...
    25-35页
    查看更多>>摘要:汉语框架语义角色标注对汉语框架语义分析具有重要作用.目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分.目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练.针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签.该模型在三个副词框架数据集上表现良好,F1值均达到了 82%以上.此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了 4%以上.

    汉语框架语义角色标注副词BERT膨胀卷积CRF

    双重否定结构自动识别研究

    王昱袁毓林
    36-45页
    查看更多>>摘要:双重否定结构是一种"通过两次否定表示肯定意义"的特殊结构,直接影响自然语言处理中的语义判断与情感分类.该文以"--P==>P"为标准,对现代汉语中所有的"否定词+否定词"结构进行了遍历研究,将双重否定结构按照格式分为了 3大类,25小类,常用双重否定结构或构式132个.结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序.程序实验的精确率为98.80%,召回率为98.90%,F1值为98.85%.同时,程序还从96 281句语料中获得了 8 640句精确率约为99.20%的含有双重否定结构的句子,为基于统计的深度学习模型提供了语料支持.

    双重否定自动识别程序语义分析

    基于多历史序列联合演化建模的两阶段时序知识图谱推理

    李紫宣官赛萍靳小龙白龙...
    46-53页
    查看更多>>摘要:近年来,随着互联网技术和应用模式的迅猛发展,互联网数据规模爆炸式增长,其中包含大量带有时序信息的动态事件知识.为了建模这类动态事件知识,时序知识图谱在传统知识图谱的基础上引入时间信息,以带时间戳的知识图谱序列刻画这类知识.时序知识图谱推理任务旨在根据过去发生的事件四元组(主语实体,关系(事件类型),宾语实体,时间戳)预测未来发生的事件.为此,模型需要充分建模实体的历史演化过程.然而,巨大的实体数目以及它们对应的大量历史事件给时序知识图谱推理任务带来了巨大挑战.为了降低待建模历史的规模,已有方法选择建模查询实体的长程历史或者全部实体的短程历史,都丢失了一部分历史信息.实际上,由于不同实体对于一个查询的相关程度不同,模型需要更充分地建模相关实体的历史信息.基于此,该文提出了基于多历史序列联合演化建模的两阶段时序推理模型MENet(Multi-sequence Evolution Network).具体而言,其在第一阶段采用了 一种基于启发式规则的候选实体筛选策略,选择最有可能发生事件的候选实体,从而有效地降低了需要建模的实体数目;在第二阶段,其采用了 一个多历史序列联合演化模型:首先通过组合多个实体各自的长程历史信息,得到需要建模的图序列,进而通过考虑该图序列上同时刻发生事件之间的结构依赖、事件发生的时间数值信息以及不同时刻之间的时序依赖,从而更精准地建模实体演化过程.在三个标准数据集上的实验结果表明,上述模型相比于当前最先进的方法模型具有更好的推理性能.

    时序推理知识图谱

    同源语料增强的低资源神经机器翻译

    王琳刘伍颖
    54-60页
    查看更多>>摘要:缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题.该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型.这种混合语料模型在印尼语-汉语机器翻译实验中提升了 3个多点的BLEU4评分.实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性.

    同源语料数据增广低资源机器翻译印尼语马来语

    Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型

    孙媛陈超凡刘思思赵小兵...
    61-69页
    查看更多>>摘要:机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题.为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader.首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索.最后,实验结果表明,Ti-Reader模型提升了藏文机器阅读理解的性能,同时在英文数据集SQuAD上也有较好的表现.

    机器阅读理解,注意力机制端到端网络藏文

    基于提示学习的低资源藏文文本分类

    安波赵维纳龙从军
    70-78页
    查看更多>>摘要:文本分类是自然语言处理的基础任务之一.标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求.为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验.实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力.但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间.

    藏文文本分类预训练语言模型提示学习小样本学习

    基于生成对抗网络的越南语新闻事件共指关系识别方法

    汪翠余正涛梁晨
    79-86页
    查看更多>>摘要:事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述.但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰.为解决以上问题,该文提出了基于生成对抗网络的越南语新闻事件共指关系识别方法,采用触发词的上下文信息作为事件句的最小特征表示,在生成对抗网络的基础上构建噪声数据过滤机制进行信息实例与噪声实例的区分.在越南语事件数据集和公开数据集上的实验表明,该神经网络模型能有效进行噪声数据过滤,相对于传统的事件共指关系识别方法有明显的优势.

    越南语新闻事件共指关系识别生成对抗网络

    面向买卖合同的词汇增强细粒度实体识别

    王浩畅郑冠彧赵铁军
    87-98页
    查看更多>>摘要:对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能.然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题.因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列.该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验.实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型.

    词汇增强细粒度实体识别序列标注合同领域