首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    预训练神经机器翻译研究进展分析

    曹智泉穆永誉肖桐李北...
    1-23页
    查看更多>>摘要:神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNM T)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。

    自然语言处理预训练模型神经机器翻译

    基于树形解码器的航空术语DEF自动生成

    吕嘉王裴岩蔡东风张桂平...
    24-33页
    查看更多>>摘要:该文研究了基于HowNet的KDML语法体系的术语DEF自动生成问题,提出一种基于树形解码器的生成方法。在编码器端输入专业术语以及其他外部信息(术语的定义、术语子词的义原等);在解码器端交替使用义原解码器和关系解码器,同时使用注意力机制关注编码器端的各种表征信息,最终得到"义原-关系-义原"形式的输出,并组合成术语对应的义原树,进而得到术语的DEF表示以辅助专业领域HowNet的构建,最终取得了首义原F,值74。13%、总义原F1值53。92%、总关系F1值53。33%、总三元组F1值30。48%的结果。

    知网DEF生成树形结构解码

    基于模态相似性路径的统一多模态实体对齐

    朱柏霖桂韬张奇
    34-44页
    查看更多>>摘要:实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点:(1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效;(2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了 PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了 22。4%~28。9%,在MRR上提高了 0。194~0。245,验证了 PathFusion的优越性。

    实体对齐知识图谱多模态学习

    面向事件常识知识获取的事件分类研究

    王亚曹存根王石
    45-57页
    查看更多>>摘要:在计算机科学和语言学中,针对动词语义层面上的分类问题,研究者们提出了不同的分类方法,但这些分类方法无一例外地都存在着分类不全面等分类学中经常遇到的问题。一个动词表示一个事件,该文以获取事件相关的常识知识为出发点,以动词性语素为分类依据对常见的现代汉语动词进行语义分类,此分类方法分类标准清晰、不丢失语义信息,并且可实现自动分类,该文重点以"自移"类动词为例来介绍我们的分类方法。此外,该文用描述逻辑对动词性语素及语素之间的分类关系进行形式化表示,动词性语素的形式化表示是动词形式化表示的基础。根据该事件语义分类结构,可以有效地进行事件属性常识知识和事件关系常识知识的获取。

    事件语义分类特征属性常识知识获取

    面向低资源场景的神经机器翻译方法

    胡朝东叶娜张桂平蔡东风...
    58-66页
    查看更多>>摘要:神经机器翻译需要大规模的双语平行语料利用深度学习的方法构建翻译模型,但低资源场景下平行句对缺乏,导致训练的神经机器翻译模型效果较差。无监督神经机器翻译技术仅使用两种语言的单语数据,解决了神经机器翻译对大规模双语平行数据的依赖问题。但是无监督神经机器翻译技术存在两个问题,一是对于句法建模能力欠缺;二是在低资源场景下存在的少量双语语料不能用于模型训练,造成双语语料资源浪费。为了解决上述问题,该文提出在无监督神经机器翻译中融合句法知识的方法,使模型可以充分学习句子的句法信息;同时引入少量双语平行语料辅助无监督神经机器翻译训练,使模型直接学习源语言与 目标语言单词之间的转换。与基线模型相比较,在英-法和德-英单语新闻数据集上BLEU值分别提升了 1。65和1。79。

    无监督神经机器翻译句法知识去噪自动编码器

    融合指代消解的神经机器翻译研究

    冯勤贡正仙李军辉周国栋...
    67-76页
    查看更多>>摘要:篇章中的同一实体经常会呈现出不同的表述,形成一系列复杂的指代关系,这给篇章翻译带来了很大的挑战。该文重点探索指代消解和篇章神经机器翻译的融合方案,首先为指代链设计相应的指代表征;其次使用软约束和硬约束两种方法在翻译系统中实现指代信息的融合。该文建议的方法分别在英语-德语和中文-英语语言对上进行了实验,实验结果表明,相比于同期最好的句子级翻译系统,该方法能使翻译性能获得明显提升。此外,在英语-德语的代词翻译质量的专门评估中,准确率也有显著提升。

    指代表征神经机器翻译篇章级机器翻译

    基于域对抗迁移学习的低资源机器翻译

    常鑫侯宏旭乌尼尔贾晓宁...
    77-85页
    查看更多>>摘要:当域外和域内分别表示不同的语言时,语言之间的差异会导致域外知识难以适应至域内。因此提出域对抗迁移学习方法来改进机器翻译模型。采用对抗学习方法,加入一个域判别器对域外和域内的语义特征进行预测,通过最小化域外和域内语义特征预测值优化编码器。当两个领域的语义特征预测值相近时,说明模型学习到一个可以把域内数据映射到域外的映射函数。通过实验,该方法在蒙古语-汉语和维吾尔语-汉语等翻译任务上展现出一定的泛化能力。

    对抗机器翻译多语言对抗学习

    基于阅读理解的汉越跨语言新闻事件要素抽取方法

    朱恩昌余正涛高盛祥黄于欣...
    86-95页
    查看更多>>摘要:新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。

    新闻事件要素抽取长文本语义建模跨语言知识迁移阅读理解

    基于组合网络的多特征老挝语实体关系抽取研究

    马霄飞周兰江周蕾越
    96-107页
    查看更多>>摘要:实体关系抽取旨在提取实体之间存在的语义关系,这可以为知识图谱、自动问答等下游任务提供支持,在自然语言处理领域具有重要作用。由于当前老挝语实体关系抽取的相关研究十分匮乏,可用数据也十分有限,因此在训练时神经网络无法获取足够的语义信息。针对此问题,该文提出了一种基于PCNN和BiGRU的组合模型的多特征老挝语实体关系抽取方法。首先,将位置特征与音素特征融入到词向量中得到包含多种语义的联合向量;然后,分别使用PCNN模型和BiGRU模型对联合向量进行深层语义的提取,其中PCNN模型能够更好地提取文本中的局部信息,BiGRU模型能够更好地考虑文本的全局信息,之后将两个模型的输出进行拼接,便得到了包含多维度语义信息的句子向量;最后,使用softmax进行多分类计算。实验表明,该文提出的方法,在有限的数据下得到了不错的效果,macro-averaged F1 达到了 82。25%。

    多段卷积神经网络双向门控循环单元音素特征联合向量层归一化

    基于平行交互注意力网络的中文电子病历实体及关系联合抽取

    李丽双王泽昊秦雪洋袁光辉...
    108-118页
    查看更多>>摘要:基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果。

    实体关系联合抽取双向特征交互模块自注意力机制中文电子病历数据集标注与构建