首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    非关系型表格理解前沿进展

    罗平杨清平曹逸轩曹荣禹...
    1-21页
    查看更多>>摘要:表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程.表格可大致分为关系型表格和非关系型表格.前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久.后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战.非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一.随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展.该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了 目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向.

    表格智能深度学习多模态自然语言处理

    中文连动句语义关系识别研究

    孙超曲维光魏庭新顾彦慧...
    22-31页
    查看更多>>摘要:连动句是形如"NP+VP1+VP2"的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象.相同结构的连动句可以表示多种不同的语义关系.该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别.该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性.

    连动结构神经网络连动句语义关系识别

    基于话头话体共享结构信息的机器阅读理解研究

    韩玉蛟罗智勇张明明赵志琳...
    32-40页
    查看更多>>摘要:机器阅读理解(Machine Reading Comprehension,MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力.目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时,答案抽取的准确率还有待提升.该文通过篇章内话头话体结构分析,建立标点句间远距离关联关系,补全共享缺失成分,辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型,在公开数据集CMRC2018上的实验结果表明,模型的F1值相对于基线模型提升2.4%,EM值提升6%.

    机器阅读理解话头话体结构分析注意力机制预训练语言模型

    基于多层级语言特征融合的中文文本可读性分级模型

    谭可人兰韵诗张杨丁安琪...
    41-52页
    查看更多>>摘要:中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级.近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性.但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合.因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合.实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率.

    中文文本可读性分级多层级特征融合深度模型

    基于框架语义映射和类型感知的篇章事件抽取

    卢江苏雪峰李茹闫智超...
    53-64页
    查看更多>>摘要:篇章事件抽取任务从给定的文本中识别其事件类型和事件论元.该任务包括事件检测和论元识别两个子任务.目前篇章事件普遍存在数据稀疏和多值论元耦合的问题.基于此,该文提出了一种基于框架语义映射和类型感知的篇章事件抽取方法.该文分析发现事件描述与框架语义网有着相似的结构,因此将汉语框架网(CFN)与中文篇章事件建立映射,并在文本输入层引入触发词释义信息和滑窗机制充分感知上下文信息,改善了事件检测的数据稀疏问题;使用基于类型感知标签的多事件分离策略缓解了论元耦合问题.为了提升模型的鲁棒性,进一步引入对抗训练.在DuEE-fin和CCKS2021数据集上的实验结果显示,该文模型较当前主流模型测试结果有较大提升,验证了方法的有效性.

    汉语框架网框架语义映射类型感知事件抽取

    基于PCNN相似句袋注意力的远程监督关系抽取方法

    吴介坤李卫疆
    65-75页
    查看更多>>摘要:在关系抽取任务中,远程监督通过对齐知识库(KB)和文本来自动生成训练数据,从而解决了人工标注数据的问题.然而,远程监督不可避免会伴随着错误标签的问题.为了解决错误标签的问题,该文提出了基于PCNN(分段卷积神经网络)相似句袋注意力的远程监督关系抽取方法(PCNN-PATT-SBA),该模型提出了基于高斯分布的位置注意力机制(PATT),通过对非实体词与实体词之间的位置关系建模,为句子中每个单词分配相应的权重,从而降低噪声词的影响.另外,基于不同句袋之间的特征相似性,该文提出了相似句袋注意力机制(SBA),通过融合相似句袋的特征,从而达到解决单句子句袋信息过少的问题.在数据集New York Times(NYT)上的实验结果证明了该文提出方法的有效性,并且相对于句袋间注意力模型,在P@N值上提高了 6.9%.

    远程监督位置特征相似度注意力机制高斯分布

    第二十届全国机器翻译大会(CCMT 2024)征稿通知

    中国中文信息学会
    75页

    面向无触发词文本的因果关系事件对联合抽取模型

    张国梁朱桐陈文亮
    76-87页
    查看更多>>摘要:事件因果关系抽取(Event Causality Extraction,ECE)是从文本中抽取出表示因果事件对的事件类型、事件要素及事件间的关系.之前的工作都在含有触发词的文本上进行,并且事件抽取和关系识别也都依靠触发词等事件主体.然而,现实中有许多文本没有触发词,因此该文的抽取任务则是在无触发词标注的文本上进行.该任务的难点在于不仅要抽取多个独立事件,还要判断相互间的因果关系,并且存在事件主体缺失、多事件对及事件类型重叠的问题.该文提出一种分阶段的联合抽取模型,在第一阶段,利用层叠结构模型识别出文本中的事件类型与因果关系;在第二阶段,利用"双定位"和阅读理解机制获得嵌入事件类型信息的句子表示,并通过多层二元标志解码器预测各事件要素的首尾位置.为缓解误差传播问题,该文将两阶段模型通过共享编码层的方式联合训练.实验表明,该文提出的方法可以在完全无规则的情况下有效抽取出无触发词文本中的因果事件对.

    事件因果关系抽取事件抽取关系抽取

    非样本均衡细粒度金融要素抽取研究

    徐土杰陈清财
    88-98页
    查看更多>>摘要:金融要素抽取旨在应用信息抽取技术,从合同、计划书中提取出能够反映金融文档关键性信息的一些实体、短语等,又称为金融要素,最终实现金融文档的自动化处理.相比现有抽取任务,金融要素抽取任务面临着样本长尾分布、细粒度以及长文本长要素等难点,现有抽取模型无法有效处理如此复杂的抽取问题,抽取效果不佳.对此,该文提出了将要素抽取任务转换为带类型的头尾指针预测任务的模型ENAPtBERT.一方面,ENAPtBERT头尾指针的设计缓解了不合法标签的影响,并能很好地结合不均衡损失函数以缓解不均衡问题.另一方面,ENAPtBERT利用引入的要素名称信息增强模型发现要素、分类要素的准确率.在金融要素抽取数据集上,ENAPtBERT的Micro-F1指标比现有抽取模型提升了 2.50%,Macro-F1指标至少提升了 2.66%,有效证明了ENAPtBERT处理复杂抽取问题的有效性.

    金融要素抽取不均衡细粒度要素名称信息

    融入文档图和事件图的新闻核心事件检测

    赵庆珏余正涛王剑黄于欣...
    99-106页
    查看更多>>摘要:新闻核心事件检测旨在从非结构化的新闻文本中检测出最能代表新闻核心内容的事件.新闻报道的多个事件之间存在着复杂的关联关系,且同一个事件的事件要素分布在不同的句子甚至不同的段落中,传统的方法对事件之间的关联关系以及事件的全局语义信息建模不充分.因此,该文提出了融入文档图和事件图的新闻核心事件检测方法.该方法首先通过构建文档图和事件图来建模新闻文本的全局语义特征和事件之间的关联特征.然后,通过图卷积神经网络捕获高阶邻域信息,获得文档表征和事件表征.最后,将得到的文档表征和事件表征使用交叉注意力进一步捕获事件全局语义信息.在纽约时报数据集上的实验结果验证了该文方法的有效性,NR@1较基线方法提升2.18%.

    核心事件检测文档图事件图交叉注意力机制