首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    基于跨语言学习的老挝语实体识别方法

    邓喆周兰江周蕾越
    84-92页
    查看更多>>摘要:传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言.该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一种基于跨语言学习的老挝语实体识别方法,该方法仅需要汉-老平行句对,而无需大量命名实体标注数据.首先,利用开源命名实体识别工具在汉语端进行命名实体标注;然后,利用跨语言表示和相似度计算将标注从汉语端投影到老挝语端并进行后处理;最后,使用融合词性特征和音节特征的字符向量训练命名实体识别模型.实验表明,基于跨语言学习的老挝语实体识别模型的F1值达到了 74.29%.

    老挝语命名实体识别弱监督学习跨语言词向量

    基于注意力机制补足实体缺陷的文档级关系抽取方法

    彭文智肖蓉安先跨杨肖...
    93-102页
    查看更多>>摘要:命名实体识别是文档级关系抽取中的一项关键任务,然而,传统的文档级关系抽取模型在实体识别时,仅通过汇聚局部提及信息构建实体,这限制了实体的表征能力.为此,该文提出了基于注意力机制补足实体缺陷的文档级关系抽取方法.该方法根据预定义的关系集合选择性关注实体提及层次特征,然后利用池化方法积累信号,为实体补足不同提及语义特征,同时,引入交叉多头注意力机制和残差连接对实体进行上下文加权处理,加强实体与上下文、全局信息之间的联系.该文在DocRED数据集上进行实验,与基线模型相比,补足实体缺陷后的基线模型在验证集Fi/Ign_F1和测试集F1/Ign_F1上分别提升了 1.82%/1.73%和1.81%/1.62%,实验结果表明了该方法的有效性.

    文档级关系抽取命名实体识别注意力机制

    基于中文电子病历知识图谱的实体对齐研究

    李丽双董姜媛
    103-111页
    查看更多>>摘要:医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要.然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案.因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案.同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了 一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果.

    医疗知识图谱中文电子病历实体对齐结构异构体并行图神经网络

    基于大型语言模型指令微调的心理健康领域联合信息抽取

    蔡子杰方荟刘建华徐戈...
    112-127页
    查看更多>>摘要:信息抽取目的在于从文本中提取关键的信息.心理健康领域的信息抽取能力反映了语言模型对人类心理健康相关信息的自然语言理解能力.提高语言模型的领域信息抽取能力,还能为AI心理健康服务提供重要的知识来源.但目前心理健康信息抽取的中文指令数据集十分匮乏,这限制了相关研究和应用的发展.针对以上问题,该文在心理学专家的指导下提示ChatGPT生成样本实例,并通过设计生成指令以及数据增强,构建了 5 641条包含命名实体识别、关系抽取和事件抽取三项基本抽取任务的心理健康领域联合信息抽取指令数据集,旨在填补心理健康领域信息抽取中文指令数据集的不足.随后使用该指令数据集对大型语言模型进行参数高效微调.与基线模型的性能对比以及人工评估的实验结果表明,大型语言模型经过有效的指令微调后可以完成心理健康领域信息抽取的联合任务.

    信息抽取心理健康大型语言模型指令微调

    基于多尺度卷积的阅读理解候选句抽取

    李沫谦杨陟卓李茹王笑月...
    128-139,157页
    查看更多>>摘要:机器阅读理解作为检验机器是否具有理解人类自然语言能力的重要任务之一,受到了越来越广泛的关注.该文针对选择型阅读理解任务中特征提取不全面和交互不充分的问题,提出一种基于多尺度卷积的候选句抽取模型.首先,使用预训练模型编码句子语义信息,并利用多种特征辅助编码提升模型性能.其次,为了充分利用文本信息,采用多尺度卷积捕捉不同尺度的文本特征.再次,使用Focal Loss解决阅读理解中正负样本不均衡的问题,最后,选取top-20作为候选句.该文的方法在两个阅读理解选择题数据集上进行测试,实验结果表明,多尺度卷积模型效果优于基线模型,F1 值较最优基线模型结果分别提升3.66%和4.82%,验证了方法的有效性.

    机器阅读理解候选句抽取多尺度卷积

    融合用户特征的图注意力微博谣言检测模型

    杨帆李邵梅
    140-146页
    查看更多>>摘要:随着网络和通信技术的发展,谣言借助微博等平台可快速扩散,形成病毒式传播,给国家安全和社会稳定造成严重的安全隐患.为了提高谣言自动检测的准确率,对基于图注意力网络的全局-局部注意力编码谣言检测模型进行了改进.首先,引入用户属性信息对微博文本内容特征和传播结构特征进行补充,得到更高阶特征;其次,改进图注意力机制以得到更健壮的节点聚合特征,为判决是否为谣言提供更准确的依据.在微博谣言数据集上的实验结果表明,相对于已有算法,该文提出的检测模型具有更高的检测准确率.

    谣言检测图注意力机制用户属性信息传播结构信息

    基于集合预测的方面级情感三元组提取

    余军过弋阮启铭
    147-157页
    查看更多>>摘要:近年来,基于方面级别的情感分析(ABSA)任务受到越来越多的关注.其中,方面级情感三元组提取(ASTE)是ABSA任务中最新的子任务,其要求同时提取出句子的方面词、观点词并输出对应的情感极性.先前的工作大多采用pipeline方式进行提取,忽略了方面词和观点词之间的联系,且容易产生误差传播的问题.对此,该文提出一种基于集合预测的方法,将方面级情感三元组提取问题转换成集合预测问题,以端到端的方式进行三元组提取.在多个基准数据集上的实验表明,该文提出的模型取得了较为先进的结果.

    方面级情感分析集合预测情感三元组

    基于事实和风格的多通道融合虚假新闻检测

    赵中杰郑秋生张龙
    158-166页
    查看更多>>摘要:虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径.针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格.同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD.在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了 2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持.

    虚假新闻检测证据检索多通道融合预训练模型