首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    基于图神经网络的会话推荐方法综述

    张雄涛祝娜郭玉慧
    1-16页
    查看更多>>摘要:[目的]聚焦图神经网络技术,对会话推荐方法进行述评.[文献范围]分别以"Session-Based Recommendation""Graph Neural Network""会话推荐""图神经网络"为检索词,在Web of Science、中国知网等数据库中筛选出82篇国内外文献.[方法]从框架、评价和趋势三个视角,对基于图神经网络的会话推荐方法进行归纳与对比,总结现有评价资源,讨论未来研究趋势.[结果]图神经网络是当前实现会话推荐系统的主流技术,基于图神经网络的会话推荐方法主要围绕"会话图构建"、"会话图学习"和"会话兴趣表示"三个核心问题展开.[局限]本文仅评述主流研究,并未将所有研究逐一列出.未从可解释性、鲁棒性、多样性和公平性等方面深入研究.[结论]图神经网络是会话推荐系统的主流实现技术,未来可结合会话推荐的特定场景,通过发展图神经网络技术进一步改进现有研究不足.

    图神经网络会话推荐序列推荐推荐系统深度学习

    多文档摘要研究综述

    宝日彤孙海春
    17-32页
    查看更多>>摘要:[目的]调研和梳理相关文献,总结多文档摘要研究框架和主流模型.[文献范围]以"Multi-Document Summarization"、"多文档摘要"为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献.[方法]归纳多文档摘要技术实现的主流框架,依据关键技术对近年最新模型和算法进行分类概述,并对未来研究提出展望.[结果]对比阐述了多文档摘要最新模型与传统方法的优缺点,并对高质量多文档摘要数据集、现阶段评价指标进行总结.[局限]在实验结果对比部分,只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果,缺乏全部模型在同一数据集上的实验结果对比.[结论]多文档摘要任务仍存在很多亟待解决的问题,如生成摘要的事实性不高、摘要模型的通用性差等.

    多文档摘要文本摘要内容选择Transformer模型预训练模型

    基于权利要求层级特征的专利相似度计算方法研究

    向姝璇操玉杰毛进
    33-43页
    查看更多>>摘要:[目的]现有专利相似度计算方法对专利文本独有特征利用不足,并一定程度上忽视了专利内容与结构的特性,本文就上述问题提出一种新的专利相似度计算方法.[方法]通过权利要求层级特征生成技术组合句并进行信息核心度、信息丰富度的加权,兼顾技术内容范围与技术信息重点进行专利表示,在此基础上进行专利相似度计算.通过相关性指标与专利分类的对比实验证明方法的合理性.[结果]本文提出的方法较同类基准方法可以更充分地表达专利信息,更适用于专利相似度计算;技术组合句的重构对模型表现提升作用明显,在该基础上的信息核心度、信息丰富度的加权能进一步提高模型表现.[局限]仅在量子计算领域进行实验,技术领域是否会对方法表现造成影响仍待探究.[结论]权利要求树与技术组合句的信息组织形式能够提高专利文本的利用效率;基于专利权利要求层级特征的技术组合句与对应信息特征加权能够提升专利表示效果及其在相似度任务中的表现.

    权利要求专利相似度权利要求层级

    基于层次标签结构的标记分布学习

    刘勘游美琳卫兰茜
    44-55页
    查看更多>>摘要:[目的]考虑到标记分布学习中标记之间具有层次结构关系,将层次标签结构引入标记分布学习,提升标记分布学习的效果.[方法]提出一种基于层次标签结构的标记分布学习算法(Hierarchy Label Distribution Learning Algorithm,H-LDL),根据样本在各层次的标签,利用条件概率描述粗、细两个层次的结构关系,并通过层次加权损失函数及其优化策略调节层次间标记的准确分布.[结果]在两个公开数据集上进行实验,用了 5个指标进行效果检测,其中,BU_3DFE数据集在Euclidean、Squared、K-L指标中较基线算法最低值分别降低了 3.99%、1.07%、3.10%,Intersec和Fidelity指标较基线算法最高值分别提升了 4.24%、0.67%,COMP数据集在Euclidean指标上降低了 0.48%,在Squared、K-L指标未见明显降低,在Intersec和Fidelity指标上提升了0.45%、0.02%.[局限]仅考虑了标签之间粗层次和细层次两层结构关系,当标签具有其他更复杂的层次结构关系时需进一步研究.[结论]加入层次标签结构后标记分布误差有明显减小,有效提升了标记分布学习的效果.

    层次结构标记分布学习层次标签条件概率

    EBSCO推出临床决策Dyna创新中心

    55页

    基于多元相似度融合的中文命名实体消歧方法

    石水倩金晶沈耕宇王宝佳...
    56-64页
    查看更多>>摘要:[目的]解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率.[方法]提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画.[结果]在维基百科农业方向数据集上的实验结果表明,本文所提方法准确率为89.7%,优于传统方法.[局限]方法仅在特定领域适用.[结论]本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率,能够解决特定领域的实体消歧问题,未来可将其应用于更广泛的实体消歧场景中.

    实体消歧相似度上下文词向量实体属性主题词向量

    基于语步识别的科技文献结构化自动综合工具构建

    刘熠张智雄王宇飞李雪思...
    65-73页
    查看更多>>摘要:[目的]借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点.[方法]提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路,即通过语步识别与研究问题、研究方法、研究进展短语抽取,自动揭示单篇文献中的关键知识内容;通过层次聚类与类簇标签生成,实现多篇文献的知识整理归纳;通过设计树形综合结构,指导结构化综合结果输出.[结果]研发了结构化自动综合工具,能够自动综合文献集内容,并按照"研究问题-研究方法-研究进展"的树形结构揭示文献集的研究脉络与骨架.[局限]由于聚类技术的限制,目前还存在聚类准确率不足、聚类簇个数难以确定等问题,影响了自动综合效果.[结论]基于语步识别技术,构建面向实际应用的结构化自动综合工具,支持文献检索、自动综合、结果循证等功能,验证了基于语步识别实现结构化自动综合思路的可行性和有效性.

    科技文献语步识别结构化自动综合短语抽取层次聚类类簇标签生成

    中文学术论文全文语步识别研究

    杜新玉李宁
    74-83页
    查看更多>>摘要:[目的]针对学术论文语步识别相关研究存在只能处理少量的语步、语步识别粒度较粗、缺少公开的语步分类数据集等问题,研究学术论文的全文语步识别,为机器自动理解论文内容提供基础.[方法]基于BERT模型,采用多阶段微调的方式构建学术论文语步分类数据集,并提出一种融入章节标题文本的语步识别方法,在细粒度层面实现中文学术论文全文语步的识别.[结果]实验结果表明,学术论文语步的22类别分类任务中,RoBERTa-wwm-ext模型总体准确率提升0.031,达到0.909,Micro-F 1值提升0.022,达到0.837.[局限]所构建的学术论文语步分类数据集尚存在少量数据不平衡问题,所提方法受限于论文质量,这些问题得到改进后,模型对语步的识别能力应能得到进一步提高.[结论]所提方法取得了较高的语步识别准确率,研究成果可用于学术论文的自动理解、论文质量评价及论文语义检索等领域,对科技文献的有效利用具有重要作用.

    学术论文理解语步识别预训练模型

    支持跨领域的中文虚假评论识别方法

    谷岩郑楷洪胡勇军宋益善...
    84-98页
    查看更多>>摘要:[目的]在多领域数据集的基础上,构建一种基于评论文本深层词关系语义信息提取的支持跨领域的中文虚假评论识别模型CFEE,解决传统识别方法较少考虑中文评论文本中存在不同领域数据差异性和领域虚假评论数据隐藏性的问题.[方法]提出11条虚假评论数据集建立规则,建立多领域数据集;构建CFEE模型跨领域识别中文虚假评论,其主要功能为基于ERNIE预训练模型提取文本深层语义信息、基于评论文本情感属性识别评论隐藏性、基于卷积神经网络将文本信息投射到词关系维度、基于神经网络融合特征实现分类.[结果]CFEE模型在多领域中文虚假评论数据集上的F1值为91.52%,在手机、食品、服装、家电等单领域数据集上的F1值分别为85.71%、79.59%、85.71%、85.00%,效果均显著优于现有模型.[局限]存在人工标注的主观性.[结论]本文所提识别方法能够有效地跨领域识别中文虚假评论.

    虚假评论ERNIE模型跨领域识别中文语义情感得分

    主题-引文融合视角下重要主题发现及知识流动路径研究

    梁爽刘小平柴文越
    99-113页
    查看更多>>摘要:[目的]理解与探究知识流动的内在机理与轨迹方向,为科技创新与发展、科学评价与决策提供参考.[方法]以主题作为研究视角,建立知识网络,综合主题影响因子与节点交叉度构建主题重要度指标.基于识别得到的重要主题,分别从知识流入与知识流出视角,利用最大路径搜索算法实现知识流动路径的构建.[结果]实证分析表明,所构建的指标能够对领域重要主题实现有效识别.在此基础上,构造知识流动路径,并得到具有最大知识传播量的领域路径.[局限]知识节点间的知识流动强度度量具有一定的局限性,未能全面考虑到引用行为发生的动机、引用类型等实际引用情况的多变性.[结论]综合分析两种视角下的流动路径可以发现,主题间具有较为普遍的双向知识流动,学科内部存在交流紧密的主题群,为从整体上把握研究主题的形成脉络与继承发展提供有益参考.

    引文分析主题引用网络主题重要性知识流动路径分析