首页|基于知识图谱的关键知识路径挖掘研究--以催化抗体领域为例

基于知识图谱的关键知识路径挖掘研究--以催化抗体领域为例

张小云

基于知识图谱的关键知识路径挖掘研究--以催化抗体领域为例

张小云1
扫码查看

作者信息

  • 1. 中国科学院大学
  • 折叠

摘要

科学研究范式正在经历一场深刻的变革,以知识图谱为代表的智能化手段为科技情报服务赋能,推动智慧数据驱动的科学知识发现向智能化方向迈进。面向创新研发的知识发现工作需要科技文献提供强有力的支撑,然而文献所含科技数据中存在大量冗余信息,限制了数据知识的利用效率与应用深度,不利于指导科研工作。因此,需要借助一定手段深入文献内部先行甄别有价值的信息和高密度的知识通路,即关键知识路径挖掘。 关键知识路径挖掘从大量路径中凝练出领域知识发展模式,并从直观揭示显性知识关联。但是现阶段关键知识路径挖掘研究多局限于文献的外部特征,路径搜索方法比较粗糙,权值区分度低,对关键路径过滤效果欠佳,而且无法利用旧识中推演出新知。而集成了语义分析、图挖掘算法和可视化功能的知识图谱不仅支持能够清晰描述文献内部的深层语义特征,而且支持从非相关性文献中发现未知的知识关联。知识图谱的构成要素特有的语义特征能够丰富路径搜索规则,恰好弥补路径挖掘的不足。因此,为了进一步提升知识路径发现效果,借助知识图谱改进关键知识路径挖掘的方法成为必然选择。研究具体工作分为三个部分: 第一部分是理论研究。首先,明确定义了知识图谱、三元组重要性和关键知识路径三个核心概念。然后在回顾知识图谱、路径挖掘方法以及知识路径发现应用的研究现状过程中发现,当前知识图谱正在快速向各个领域持续渗透,但因其构成要素和属性较为单一,功能作用比较受限;此外,知识路径挖掘已被广泛应用于生物化学领域,其中涉及的两个研究主题——路径搜索策略和重要性评估进展迅速,但是鲜少有两者的关联性研究。据此,将探索融合多源数据的知识图谱构建方式,并从重要性测度环节对关键路径挖掘方法进行优化。 第二部分是方法设计。详细阐述了基于语义框架建立知识图谱的流程细节,主要包括获取和处理数据、设计领域知识语义模型和组织存储三个步骤,以及使用的技术和工具。然后聚焦于重要性测度环节,根据知识网络多重属性信息挑选评价指标并进行加权组合,依次对“知识节点-知识三元组-知识路径”重要性的进行评估。与此同时,利用知识三元组改进路径搜索与筛选方法,改善知识挖掘效果,由此形成一套完整的关键知识路径挖掘方法。 第三部分是实证研究。选取了催化抗体领域作为实证对象,设计领域知识语义模型并搭建多源融合催化抗体领域知识图谱。在此基础上,根据不同应用场景设计相匹配的关键知识路径挖掘方案。研究结果表明:催化抗体知识图谱能够有效组织管理多源数据,在“催化抗体与可卡因”研究中,基于催化抗体知识图谱发现的关键知识路径表现出较高实用价值。 整体而言,此次研究进一步明晰了多源融合知识图谱的构建流程,引入重要性测度环节的关键知识路径挖掘方法的准确性和效率得到明显提升,能够满足更加灵活多元的知识需求,具备较大应用潜力。

关键词

信息挖掘/知识图谱/语义分析/关键知识路径

引用本文复制引用

授予学位

硕士

学科专业

情报学

导师

胡正银

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

TP
段落导航相关论文