首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    中国中文信息学会关于征集2024重大科学问题、工程技术难题和产业技术问题的通知

    中国中文信息学会
    98页

    基于实体对注意力机制的实体关系联合抽取模型

    朱继召赵一霖张家鑫黄友澎...
    99-108页
    查看更多>>摘要:实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术.考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA).首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取.在公开数据集NYT和 WebNLG上对提出的EPSA模型进行评估,实现结果表明,与 目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题.

    知识图谱注意力机制实体关系联合抽取

    文档级关系抽取中的小波变换特征增强方法

    杨肖肖蓉
    109-120,131页
    查看更多>>摘要:传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系.为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了 一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法.首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征.为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合.在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系.

    文档级关系抽取小波变换多头注意力机制

    基于批数据过采样的中医临床记录四诊描述抽取方法

    王亚强李凯伦舒红平蒋永光...
    121-131页
    查看更多>>摘要:中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一.该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练.实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了 2.13%.

    中医临床记录四诊描述抽取类别分布不均衡批数据过采样

    字里行间的道德:中文文本道德句识别研究

    彭诗雅刘畅于东邓雅月...
    132-141,154页
    查看更多>>摘要:随着人工智能的发展,越来越多的研究开始关注人工智能伦理.与英文相比,目前面向中文的道德研究开展缓慢,其中一个主要难点是数据短缺问题,且由于理论基础和思维方式等诸多差异,使得英语中的道德识别研究难以直接迁移到中文里,影响了中文道德的相关研究的发展.为解决上述问题,该文提出了面向中文的文本道德句识别任务,并从资源建设和识别方法两个角度对其进行了研究.该文首先利用人工和机器标注两种方法构建了国内首个10万级别的中文道德句数据集.其次提出中文文本道德识别任务,利用当前流行的三类机器学习方法,对中文道德句识别任务的实验表现进行了探索,并得到了对应的识别任务的基线结果.此外,还探索了利用外部知识辅助的方法,对中文道德句的识别任务进行了相关探究.

    人工智能伦理机器道德文本道德

    基于多层次不真实性传播结构的社交媒体谣言检测

    高准但志平董方敏张岩珂...
    142-154页
    查看更多>>摘要:当前谣言检测工作主要研究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习.为此,该文提出一种多层次的动态传播注意力网络模型(Multi-level Dynamic Propagation Attention Networks,MDPAN)用于检测谣言.该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合.在公开的Twitter15、Twitter16和Weibo16数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的EBGCN模型,整体准确率分别提高 了 2.1%、0.7%和 1.7%.

    谣言检测传播结构节点级注意力图卷积网络

    基于双记忆交互网络的领域自适应方面词提取方法

    程艳胡建生赵松华罗品...
    155-168页
    查看更多>>摘要:方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注.因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义.由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练.为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源.针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力.为了缓解领域间粒度不一致和特征不匹配问题,该文提出了 一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性.最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验.实验结果表明,与多个基线模型相比,该文提出的方法性能更优.

    方面词提取无监督学习领域自适应序列标注