首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    基于标签提示和门控模块的少样本命名实体识别

    吕明翰黄琪罗文兵王明文...
    117-125页
    查看更多>>摘要:少样本命名实体识别旨在利用少量样本实现命名实体的自动识别.近年来两阶段原型网络在少样本命名实体识别任务上取得了较好的效果,但仍存在跨度检测假阳性和跨度分类原型不准确的问题.针对上述两类问题,该文提出一种基于标签提示和门控模块的少样本命名实体识别模型.在跨度检测阶段,利用标签提示信息优化句子表示,减少假阳性的出现.在跨度分类阶段,通过引入门控模块,显式地利用标签信息和样本原型进行融合,分别提取标签信息和样本信息中的有效信息,以获得更准确的原型表示.在多个数据集上的实验结果表明,该文所提出的方法相较于基准模型在F,值上能够取得10.63%的提升,并且消融实验也表明该文模型各个模块的有效性.

    少样本学习命名实体识别原型网络

    面向临床发现的复杂事件抽取

    康铠宋若雨郭宇航杜伦...
    126-134页
    查看更多>>摘要:临床发现事件抽取即从电子病历中检测和提取所需事件的属性.由于事件属性的多样性、多事件属性的重叠性、垂直领域语料的专业性、样本分布的不均衡性增加了事件抽取任务的复杂程度,常规的方法无法很好地解决问题.为了适应任务的复杂性,该文提出了一种面向临床发现的管道式事件抽取方法,将事件抽取划分为基于序列标注的触发词抽取、基于指针网络的论元抽取和基于匹配的事件极性预测三个模块.该方法在中国健康信息处理会议(CHIP2021)评测2数据集上获得0.430 3的 F1 值,取得了第1名的成绩.

    临床发现事件抽取流水线模型

    FedKRec:匿名化隐私保护的联邦学习推荐算法

    黎博李世龙姜琳颖杨恩能...
    135-145页
    查看更多>>摘要:基于联邦学习的推荐系统将模型训练分散在多个本地设备上,而不在服务端共享数据,以实现用户数据的隐私保护.现有大多方法通常将服务端的物品特征矩阵广播到用户端计算损失并将物品的梯度回传到服务端更新,这种方式存在泄漏用户兴趣偏好的风险.为了解决这个问题,该文提出了一种基于匿名化的联邦学习推荐算法FedKRec来有效避免隐私泄露.具体来说,受K匿名思想的启发,FedKRec在向服务器上传梯度信息时将(隐私的)正样本的梯度隐藏在K个静态负样本的梯度之中.首先,通过对真实数据集的分析结果表明,正样本物品类别分布会在一定程度上泄漏用户兴趣偏好,提出一种考虑物品类别平衡的自适应负样本采样方法.其次,由于正样本和负样本梯度量级存在较大的差距,容易造成正样本信息泄漏,提出为正负样本梯度增加一定的高斯噪声,使得攻击者无法从中准确地识别出正样本.最后,从理论上证明了从物品类别分布上来看,这些加入噪声后的正负样本的集合不会泄露用户的偏好.在多个公开数据集上的实验结果表明,该文提出的FebKRec算法在有效保护了用户隐私的前提下达到了与传统方法可比的推荐性能.

    联邦学习分布式学习推荐系统隐私保护匿名技术

    基于双头自编码器的评论主题感知推荐模型

    刘树栋李震郝熙平陈旭...
    146-166页
    查看更多>>摘要:近年来,推荐系统逐渐成为电子商务、在线流媒体、新闻资讯等各大互联网平台不可缺少的关键技术.以协同过滤技术为代表的推荐系统主要研究用户-项目评分数据,但此类方法常常面临新加入用户与用户交互次数少而导致的冷启动问题和数据稀疏问题.为解决上述问题,研究人员将用户和项目的上下文信息引入到协同过滤推荐系统中,丰富用户与项目表示.随着文本挖掘技术的发展,有研究发现用户对项目的评论文本不仅能够体现项目在不同方面的语义特征,也可以弥补用户-项目评分矩阵不能全面地反映用户语义偏好的局限,故可以将其应用到推荐系统中缓解数据稀疏性和冷启动问题.由于文本数据和用户-项目评分数据在用户偏好表示上存在差异,目前大多数模型在用户表示学习方面没有进行深层次的多次融合,为此,该文提出一种基于双头自编码器的评论感知推荐模型(Review Topic-aware Recommendation Model with Two-headed Autoencoder,TAAE).该模型通过隐狄利克雷主题模型与BERT模型提取出用户评论的主题信息与语义信息,采用注意力机制与门控机制相结合的方式进行多模态特征对齐与融合,再利用多项式降噪自编码器进行用户评分预测.此外,为了缓解自编码器推荐模型中常见的流行度偏差问题,TAAE构建了一个负采样解码器,对推荐结果进一步优化.最后,在6组公开Amazon数据集上测试了 TAAE模型的推荐性能,并对模型可能存在的变体及各解码器结构进行消融实验,实验结果表明,TAAE模型优于其他7个对比模型.

    双头自编码器门控机制协同过滤评论感知推荐系统

    融合时间流特征和传播结构特征的谣言检测

    董苏军钱忠李培峰朱巧明...
    167-176页
    查看更多>>摘要:现存关于谣言检测的研究方法要么只关注谣言在社交媒体上传播的时间流特征,要么仅关注传播结构特征,并且使用了大量的辅助信息.实际上,谣言传播的时间流和传播结构特征均有助于提升谣言检测模型的性能,并且能够形成互补作用.与此同时,源用户的自我描述相比于其他辅助信息更为重要,并且源推文的语义信息在整个会话线程中起到了关键作用.为解决上述问题,该文提出了一个新颖的谣言检测模型TPSS.该模型融合了时间流和传播结构特征.同时,仅采用源用户的自我描述作为辅助信息,并且提出了一种协同注意力机制来增强源推文的作用.该机制基于源推文特征来增强时间流特征和传播结构特征.在Twitter15、Twitter16和PHEME数据集上的实验结果表明TPSS优于基准系统.

    谣言检测时间流特征传播结构增强机制

    2024全国知识图谱与语义计算大会暨知识图谱国际联合会议(CCKS-IJCKG 2024)在重庆顺利召开

    中国中文信息学会
    176页