首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    表格问答研究综述

    张洪廙李韧杨建喜杨小霞...
    1-16页
    查看更多>>摘要:表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一.近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究.该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法.其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标.最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战.

    表格问答语义解析自然语言处理综述

    大模型生成回答与人类回答文本的语言特征比较研究

    朱君辉王梦焰杨尔弘聂锦燃...
    17-27页
    查看更多>>摘要:近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人 ChatGPT能够自如地与人对话、回答问题.为了探究机器生成语言与人类语言的差异,该文分别收集了人类和 ChatGPT在中文开放域上3 293 个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的 161 项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同.研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的 77 项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点.

    ChatGPT人类语言语言特征机器学习

    基于词汇识别ERP数据的跨语言激活路径研究:从二语到母语方向

    杨思琴江铭虎
    28-37页
    查看更多>>摘要:该文运用事件相关电位技术(Event-Related Potentials,ERPs)探索了二语学习者在识别二语(Second Language,L2)词汇时激活母语(Native Language,L1)词汇表征的路径.研究设计了隐性启动范式来开展两个实验,通过观察被试对 L1 中对译词这一隐性条件的感知情况来推测激活结果.脑电结果显示,实验一的被试在执行语义判断任务时,对译词首字重复与不重复的两种情况产生了显著的 N400 差异,这表明被试通过概念表征激活了L1 词汇表征,印证了激活路径Path-1 的存在;实验二的被试在执行书写形式判断任务时,在没有语义启动的情况下,同样感知到了对译词重复这一隐性条件,这表明 L2 词汇表征可以直接激活 L1 词汇表征,从而证明了激活路径Path-2 的存在.总体而言,词汇识别过程中从 L2 词汇表征到 L1 词汇表征的激活路径与修正层次模型(the Revised Hierarchical Model,RHM)描绘的词汇产出的激活路径类似.据此,该研究推测,尽管大脑在词汇识别和产出过程中采用了不同的处理机制,但在词汇的跨语言激活过程中,它们依然存在某些共通之处.

    词汇激活路径P200N400

    基于CNN-NLSTM的脑电信号注意力状态分类方法

    沈振乾李文强任甜甜王瑶...
    38-49页
    查看更多>>摘要:通过脑电信号进行注意力状态检测,对扩大脑-机接口技术的应用范围具有重要意义.为了提高注意力状态的分类准确率,该文提出一种基于CNN-NLSTM的脑电信号分类模型.首先采用 Welch 方法获得脑电信号的功率谱密度特征并将其表示为二维灰度图像.然后使用卷积神经网络从灰度图像中学习表征注意力状态的特征,并将相关特征输入到嵌套长短时记忆神经网络依次获得所有时间步骤的注意力特征.最后将两个网络依次连接来构建深度学习框架进行注意力状态分类.实验结果表明,该文所提出的模型通过进行多次 5-折交叉验证评估后得到 89.26%的平均分类准确率和 90.40%的最大分类准确率,与其他模型相比具有更好的分类效果和稳定性.

    注意力状态脑电信号卷积神经网络嵌套长短时记忆神经网络功率谱密度

    基于时空注意力机制的视频引导机器翻译方法

    姜舟余正涛高盛祥毛存礼...
    50-58页
    查看更多>>摘要:视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译.但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息.因此,在翻译过程中,视频中的时空结构没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题.为了解决这一问题,该文提出了一种基于时空注意力(Spatial-Temporal Attention,STA)的模型来充分利用视频中的时空信息引导机器翻译.该文提出的注意力模型不但能够选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息.所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译.该文的方法基于Vatex公共数据集和构建的汉-越低资源数据集进行实验,在Vatex与汉-越低资源数据集上BLEU4 分别达到 32.66 和 18.46,相比于时间注意力基线方法提高了 3.54 与 0.89个BLEU值.

    时空注意力视频引导机器翻译细节缺失时间注意力空间注意力

    融合目标端上下文的篇章神经机器翻译

    贾爱鑫李军辉贡正仙张民...
    59-68页
    查看更多>>摘要:神经机器翻译在句子级翻译任务上取得了令人瞩目的效果,但是句子级翻译的译文会存在一致性、指代等篇章问题,篇章翻译通过利用上下文信息来解决上述问题.不同于以往使用源端上下文建模的方法,该文提出了融合目标端上下文信息的篇章神经机器翻译.具体地,该文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果.基于 LDC 中英篇章数据集和 WMT 英德篇章数据集的实验结果表明,在引入较少的参数的条件下,该文方法能显著提高翻译性能.同时,随着第一次翻译(即句子级译文)质量的提升,所提方法也更有效.

    神经机器翻译推敲网络篇章翻译

    JCapsR:一种联合胶囊神经网络的藏语知识图谱表示学习模型

    孙媛梁家亚陈安东赵小兵...
    69-77页
    查看更多>>摘要:知识图谱表示学习是自然语言处理的一项关键技术,现有的知识图谱表示研究主要集中在英语、汉语等语言,而低资源语言的知识图谱表示学习研究还处于探索阶段,如藏语.该文基于前期构建的藏语知识图谱,提出了一种联合胶囊神经网络(JCapsR)的藏语知识图谱表示学习模型.首先,我们使用 TransR模型生成藏语知识图谱的结构化信息表示.其次,采用融合多头注意力和关系注意力的 Transfomer 模型表示藏语实体的文本描述信息.最后,采用JCapsR进一步提取三元组在知识图谱语义空间中的关系,将实体文本描述信息和结构化信息融合,得到藏语知识图谱的表示,相比基线系统,联合胶囊神经网络JCapsR模型提高了在藏语知识图谱上实体链接预测的性能,相关研究为其他低资源语言知识图谱表示学习的拓展优化提供了参考借鉴意义.

    藏语知识图谱表示学习胶囊神经网络

    面向汉越跨语言事件检索的事件预训练方法

    吴少扬余正涛黄于欣朱恩昌...
    78-85页
    查看更多>>摘要:汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务.由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务.因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练.在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升 1%~3%MAP 值,2%~4%NDCG值,证明了该文方法的有效性.

    事件预训练跨语言事件检索掩码语言模型对比学习

    MKE:基于背景知识与多头选择的嵌套命名实体识别

    李政涂刚汪汉生
    86-98,107页
    查看更多>>摘要:目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足.该文提出基于知识嵌入的多头模型,用于解决这些问题.模型的改进包括:①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入;②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类.实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在 7 个嵌套与非嵌套命名实体识别数据集上取得 SOTA表现.

    嵌套命名实体识别知识嵌入多头选择注意力实体多分类

    融合继续预训练和分部池化的司法事件检测模型

    张家诚孙媛媛李志廷杨亮...
    99-107页
    查看更多>>摘要:事件检测任务在自然语言处理领域中具有重要的研究价值,其主要目标是从文本中识别并分类触发词,实现高级文本分析与语义理解.随着智慧司法建设的推进,自然语言处理模型与司法领域的结合日益紧密.然而,由于司法领域数据较为稀缺且一个句子大多包含多个触发词等问题,该研究在预训练阶段,通过收集的十二万条司法犯罪数据对BERT进行继续预训练,以提高预训练模型对司法领域知识的理解能力;在微调阶段提出了一种分部池化结构并融合PGD对抗训练的方法,以捕获触发词上下文和句子整体的语义特征.该模型在法研杯 CAIL 2022 事件检测赛道上取得了明显的性能提升,比基于BERT的基线模型平均F1 值提高了 3.0%.

    事件检测司法领域预训练模型