首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    以可解释工具重探基于深度学习的谣言检测

    贺国秀任佳渝李宗耀林晨曦...
    1-13页
    查看更多>>摘要:[目的]探究基于内容的深度谣言检测模型能否真正识别谣言的关键语义.[方法]基于谣言检测任务的中英文基准数据集,本文分别利用基于局部代理模型的可解释工具LIME和基于合作博弈论的可解释工具SHAP,分析BERT模型所识别出的关键特征,并判断其是否能反映谣言特性.[结果]可解释工具在不同模型与数据集上计算得出的关键特征差异性较大,无法辨别模型识别的重要特征和谣言之间的语义关系.[局限]本文验证的数据集和模型数量都十分有限.[结论]基于深度学习的谣言检测模型仅拟合了训练集的特征,面向多样的真实场景缺少足够的泛化性和可解释性.

    谣言检测可解释机器学习深度学习LIMESHAP

    基于ChatGPT+Prompt的专利技术功效实体自动生成研究

    白如江陈启明张玉洁杨超...
    14-25页
    查看更多>>摘要:[目的]针对专利技术功效实体的自动识别问题,智能感知生成专利文献中的关键技术功效,辅助专利技术功效矩阵高质量构建.[方法]本文提出将ChatGPT应用于专利技术功效实体抽取任务的新思路,使用ChatGPT+Prompt的方法实现专利技术词、功效词以及技术-功效二元组的识别、提取和生成.[结果]本文识别生成了 4个领域、三种语言的专利技术功效实体,跨领域、跨语言、提示样本数量对比的实验结果(ROUGE值)表明,该方法能够较为准确地识别技术功效二元组.新能源汽车领域效果最佳,英文专利表现最优,跨域能力和跨语言能力显著,给予One-Shot显著提升模型性能.[局限]本文方法仍存在Prompt不标准、生成内容重复、单轮或多轮问答的选择困难等问题.[结论]本文方法具备合理性和可行性,有效降低技术功效实体生成的人力成本和任务门槛,拓展AIGC的应用场景,释放ChatGPT在专利文献挖掘的潜力.

    专利技术功效矩阵技术词功效词实体识别生成式模型ChatGPTPrompt

    基于XLNET和GAT的句法信息增强事件抽取模型

    余传明邓斌谈腊云盛博...
    26-38页
    查看更多>>摘要:[目的]解决序列建模对触发词之间的长距离依赖关系和触发词与论元实体关系捕获不足的问题,提升事件抽取任务上的效果.[方法]提出一种基于预训练模型XLNET和图注意力网络GAT的句法信息增强事件抽取模型SEM-XG,通过预训练语言模型进行文本表示,引入依存句法树中依赖弧增强信息流,将单词看作图中的节点,使用图注意力网络进行图信息建模,得到融入句法信息的单词表示,从而联合抽取句子中的事件触发词和论元角色.在CNC数据集和ACE2005数据集上,开展实证研究.[结果]在CNC数据集上,SEM-XG在触发词分类任务上的Fl值为94.4%,在论元分类任务上的F1值为94.0%.在ACE2005数据集上,SEM-XG在触发词分类任务上的Fl值为76.7%,在论元分类任务上的F1值为66.3%.实验结果表明,本文模型能够有效提升事件抽取的效果.[局限]尚未探究联合事件抽取模型迁移到搜索引擎、智能问答等任务上的效果.[结论]通过句法信息增强以及图注意力网络建模,能够显著提升联合事件抽取的效果.本文对于触发词分类和论元分类,提升事件抽取在科技文献分析、信息检索等领域的应用效果具有重要参考意义.

    事件抽取XLNET图注意力网络联合抽取句法信息增强

    融合语义与结构信息的知识图谱补全模型研究

    马志远高颖张强周洪...
    39-49页
    查看更多>>摘要:[目的]针对知识图谱补全任务,挖掘语义与结构信息,完善知识图谱并提升质量与可靠性.[方法]提出一种融合语义与结构信息的知识图谱补全模型,通过预训练语言模型增强知识图谱内文本及上下文数据的嵌入表示,捕获实体与关系的语义信息,并构建实体-关系矩阵映射知识图谱网络结构,获取实体的邻域信息与关系约束,进一步融合潜在数据,进行模型训练并预测丢失实体,最终达成知识图谱补全任务.[结果]与基线方法性能相比,该模型的Hits@3评测指标在FB15k-237、WN18RR和UMLS数据集上分别提升0.5、0.6和0.6个百分点.[局限]受限于语言模型的基础表示能力,未能结合多模态数据进一步提升补全任务效果.[结论]该模型具有较好的补全性能,融合语义与结构信息的方式对比其他方法具有一定优势,能够较好地完成知识图谱补全任务,对知识图谱及其下游应用的发展具有重要意义.

    知识图谱补全预训练语言模型自然语言处理深度学习

    多模态命名实体识别研究进展

    韩普陈文祺
    50-63页
    查看更多>>摘要:[目的]梳理归纳多模态命名实体识别研究成果,为后续相关研究提供参考与借鉴.[文献范围]在Web of Science、IEEE Xplore、ACM Digital Library、中国知网数据库中,以"多模态命名实体识别""多模态信息抽取""多模态知识图谱"为检索词进行文献检索,共筛选出83篇代表性文献.[方法]从概念、特征表示、融合策略和预训练模型4个方面对多模态命名实体识别研究进行总结论述,指出现存问题和未来研究方向.[结果]多模态命名实体识别目前主要围绕模态特征表示和融合两个方面展开且在社交媒体领域取得了一定进展,需要进一步改进多模态细粒度特征提取和语义关联映射方法以提升模型的泛化性和可解释性.[局限]直接以多模态命名实体识别为研究主题的文献数量较少,在支撑综述结果方面存在局限性.[结论]针对多模态命名实体识别亟需解决的问题展望未来发展趋势,为进一步拓宽多模态学习在下游任务应用的研究范畴、破解模态壁垒和语义鸿沟提供了新思路.

    多模态命名实体识别特征表示多模态融合多模态预训练

    国际科学理事会:借助全球战略加速人工智能在科学研究中的应用

    63页

    基于深度学习的术语识别研究综述

    阮光册钟静涵张祎笛
    64-75页
    查看更多>>摘要:[目的]梳理深度学习模型在术语识别中的研究现状与面临挑战.[文献范围]在中国知网和Web of Science 中,分别以主题="术语识别"+"术语抽取"、主题="(extract terms OR term recognition OR technology detection OR relation classification)AND deep learning AND ner"作为检索式进行检索,共筛选 73 篇文献进行述评.[方法]对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述.[结果]基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类.从方法使用来看,以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;BERT及BERT的优化模型是近年来的研究热点;在特定领域倾向于使用多任务模型代替神经网络模型;迁移学习以及主动学习的应用成为新的研究方向.[局限]仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究.[结论]基于深度学习的术语识别未来可在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究.

    术语识别深度学习文本挖掘

    基于AlexNet模型的南海地图多标签自动分类研究

    齐小英李晗语杨海平
    76-87页
    查看更多>>摘要:[目的]实现地图的多重语义分类,满足地图精准检索与情报分析的需求.[方法]设计地图类目体系,提出地图多标签分类策略,基于AlexNet卷积神经网络分类模型实现南海地图多标签自动分类.[结果]南海地图多标签自动分类模型的Fl值为0.979,模型能够有效实现南海地图的多标签自动分类.[局限]多标签标注数据集的深层次类目有待补充.[结论]研究内容为基于语义的地图科学分类、精准检索与跨类关联提供了参考.

    地图图像多标签分类AlexNet模型南海

    Elsevier与Iktos合作为药物发现提供人工智能驱动的合成化学平台

    87页

    融合创新性与影响力的论文代表作遴选方法研究

    刘佳程马廷灿岳名亮
    88-98页
    查看更多>>摘要:[目的]综合考虑论文的创新性和影响力,提出一种新的论文代表作遴选方法.[方法]基于论文创新性和影响力测度指标,设计代表性指数,遴选代表性指数靠前的论文作为学者的论文代表作.以诺贝尔物理学奖获得者为例,遴选其论文代表作,将平均排名和准确率作为评价指标检验遴选方法的有效性和准确性.选取张涛院士和Hirsch J E教授进行案例分析,使用代表性指数遴选其论文代表作.[结果]实证结果表明,与其他6种遴选方法对比,使用代表性指数遴选论文代表作在平均排名(2.838)和准确率(63.158%)两个指标上均排名第一.[局限]使用的测度指标需要一定的引文积累,可能无法有效选出学者新近做出的重要工作.[结论]所提论文代表作遴选方法具备可行性.

    论文代表作代表作遴选创新性影响力基础研究人才