首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    面向叙事的考古发掘登记资料的语义关联模型构建研究

    韩牧哲高劲松方晓印李帅珂...
    1-17页
    查看更多>>摘要:[目的]为保证考古发掘登记资料知识的可共享性,促进人文学科的知识融通,以多维度语义分解的叙事逻辑分析为基础,通过构建本体模型,实现考古发掘登记资料知识的多元关联组合和多维叙事展示,促进数字人文方法在考古发掘成果整理中的应用.[方法]对考古发掘登记资料中的知识结构与叙事逻辑进行详细梳理和分析,确定本体构建方案;调研文化遗产领域中流行的CIDOC CRM本体模型及其扩展的CRM本体族,确定相关本体的可复用性;然后,从考古学遗址、遗迹、遗物三个子域对相关知识进行语义对应,确定实体类;最后,以考古发掘登记资料中的叙事逻辑表示为目标,确定各实体类的对象属性和数据属性,实现本体模型构建.[结果]结合新疆哈密焉不拉克墓地的考古发掘登记资料,实现遗址与考古发掘活动的语义关联,探索了具有知识挖掘价值的墓葬遗迹、出土遗物的拓展性语义关联方法,形成一系列叙事展示.[局限]焉不拉克墓地的资料虽具代表性,但遗址规模较小,实际应用场景的复杂性可能更高.[结论]本文构建的语义关联模型可从知识单元层面实现符合考古学学科知识结构和叙事逻辑的知识表示.

    本体语义关联CIDOCCRM考古发掘登记资料叙事

    基于篇章级语义图的对话一致性检测

    李霏邓凯方范茂慧滕冲...
    18-28页
    查看更多>>摘要:[目的]通过融合包含共指链以及抽象语义表示等语义信息的对话篇章级语义图,提高对话一致性检测的准确性.[方法]首先,利用预训练语言模型BERT编码对话上下文和知识库;其次,构建包含共指链和抽象语义表示等语义信息的对话篇章级语义图,利用多关系图卷积神经网络捕获语义图中的语义信息;最后,构建多个分类器预测多种对话不一致现象.[结果]基于CI-ToD基准数据集,与现有对话不一致检测模型进行实验对比,本文模型在F1值或准确率指标上较之前的最优模型取得0.01以上的提升.[局限]所提模型不能很好地处理对话中存在的共指实体省略问题.[结论]融合共指链以及抽象语义表示等多种类别的语义信息能够有效提升对话一致性检测的效果.

    对话系统一致性检测共指链抽象语义表示图卷积神经网络

    研究显示人类医疗专家比人工智能工具更可靠

    28页

    多来源机构规范文档的融合研究

    范云满陈颖唐小利
    29-37页
    查看更多>>摘要:[目的]有效利用现有机构规范文档,解决多来源机构规范文档的遴选、评价以及文档间缺少映射、关系冗余等问题.[方法]以调研、梳理已有机构规范文档及相关研究为基础,构建包含元数据收集及分析、元数据框架融合、关系融合、别名融合、构建机构规范文档数据模型、融合结果验证6个步骤的融合模型,对多来源机构规范文档实现融合,并利用Dimensions、Scopus、Web of Science的部分机构数据进行验证.[结果]利用多种指标评估模型的融合效果,在一、二、三级机构中F1值达到0.97以上且Dimensions的融合贡献度最大;构建了包含5 128个机构的规范文档.[局限]机构关系只考虑上下级关系,关系之间循环引用以及机构规范名如何选取等问题尚未深入研究;只选取三个来源的部分机构进行验证,在更大数据集上的泛化性能有待进一步验证.[结论]本模型对多来源数据库的机构规范文档的融合是有效的.

    机构规范文档融合元数据框架融合多来源规范文档科研实体规范

    AlphaFold的重大升级为药物发现提供了动力

    37页

    基于双图神经网络的先序关系挖掘

    徐国兰白如江
    38-45页
    查看更多>>摘要:[目的]充分利用概念在学习资源中的提及等细粒度信息,更有效地进行先序关系挖掘.[方法]利用双图神经网络进行先序关系挖掘.根据概念与学习资源之间的联系以及概念之间的先序关系分别建立概念语义图和概念先序图.使用图神经网络对其学习,得到概念的表示并用于未知先序关系预测.[结果]通过在4个经典先序关系挖掘数据集上进行大量的实验,本文方法取得了较好的结果,并超过了现有的方法,在F1指标上分别超过次优方法0.059、0.037、0.073、0.042.[局限]本文方法对在学习资源中有明确提及的概念有较强的先序关系挖掘能力,而对未在学习资源中出现过的概念预测能力较弱.[结论]双图神经网络方法能够充分利用学习资源中的语义信息,提升先序关系挖掘能力.

    先序关系挖掘图神经网络智慧教育

    基于知识库增强深度学习模型的隐私政策合规性研究——从完整性与语义冲突角度

    朱侯罗颖嘉陈梦蕾欧阳佳祥...
    46-58页
    查看更多>>摘要:[目的]通过融合法律法规知识,在语义层面对隐私政策的合规性进行智能检测.[方法]依据《信息安全技术个人信息安全规范》(GB/T 35273-2020)从完整性和语义冲突角度构建合规性评价指标体系,标注语料.基于嵌入知识图谱的K-BERT模型构建完整性评价模型,并构建用于检测语义冲突的一致性评价模型.最后运用完整性评价模型和一致性评价模型分析15个领域的APP隐私政策合规性.[结果]构建通过肯德尔W检验的中文隐私政策语料库,完整性和一致性评价模型的F1值分别达到0.92和0.87.分析1 762篇APP隐私政策发现,影音娱乐、购买比价、金融理财、运动健康和汽车领域的APP隐私政策完整性表现较好,社交通讯和购买比价领域的APP隐私政策在语义层面较符合法律法规的要求.[局限]忽略了少数隐私政策中可能出现的超链接所包含的内容,导致对部分隐私政策合规性的检验可能存在偏差.[结论]本文模型实现了自动化分析各领域隐私政策合规性的目标,对于提升国家对移动APP平台处理用户隐私数据的监管能力具有重要意义.

    隐私政策合规性语义冲突K-BERTTF-IDF

    基于预训练语言模型的古籍文本智能补全研究

    李嘉俊明灿郭志浩钱铁云...
    59-67页
    查看更多>>摘要:[目的]为古籍补全任务提供一种基于预训练语言模型的新方法,利用不同语义层次和简繁体预训练语言模型获得的表示,构建混合专家系统和简繁融合模型实现古籍补全.[方法]针对传世文献和出土文献分别设计基于混合专家系统的模型和简繁融合模型,在不同场景下充分融合与挖掘模型能力,进一步提升模型古籍补全的能力.[结果]使用自行构建的传世文献数据集以及出土文献数据集,补全任务的准确率分别达到70.14%和57.13%.[局限]只从自然语言处理角度出发,未来可以利用多模态技术,计算机视觉与自然语言处理相结合,整合图像信息和语义信息两个维度,可能会有更好的效果.[结论]在构建的传世文献和出土文献数据集上进行验证,达到较高的准确率,为古籍补全任务提供了一种具有竞争力的解决思路.

    古籍数字化预训练语言模型混合专家系统

    考虑主题兴趣和领域权威的问答社区专家推荐研究

    李明珠米传民苟小义肖琳...
    68-79页
    查看更多>>摘要:[目的]对用户历史问答文本实现考虑上下文语义信息的主题识别,进而提升问答社区专家推荐的准确度.[方法]通过构建BERT-LLDA模型,将BERT模型与Labeled-LDA主题模型相结合,充分利用标签信息对用户历史问答文本进行向量化,通过降维和主题聚类实现考虑上下文语义信息的主题识别,获得用户的主题兴趣概率分布;根据主题兴趣挖掘结果构建主题敏感PageRank算法(TSPR),并加入用户质量权重迭代计算用户的领域权威;基于此得到考虑主题兴趣和领域权威的问答社区专家推荐算法TIDARank,为新问题推荐潜在回答专家.[结果]基于Stack Exchange公开数据集,BERT-LLDA模型经过主题聚类后相比TF-IDF、BERT、BERT-LDA等对比模型具有更高的轮廓系数(0.575 6)和主题连贯性(0.476 6);TIDARank算法的最佳回答者命中率ACC@20和平均倒数排名MRR@20分别为0.580 7和0.243 0,相比于表现最优的对比模型Bi-LSTM+TSPR分别提升0.145和0.081.[局限]在链接分析中未考虑用户的活跃情况.[结论]BERT-LLDA模型不仅可以优化主题聚类的效果,且有助于提升问答社区专家推荐的性能.

    社区问答专家推荐BERTLabeled-LDAPageRank

    一种基于改进K核分解的合作网络关键节点集识别方法

    张大勇门浩苏展
    80-90页
    查看更多>>摘要:[目的]针对关键节点集识别算法中广泛存在的退化性问题,提出一种以半局域中心性为基础的改进型K-shell分解算法.[方法]算法根据节点一阶邻居信息构建半局域中心性指标,在考虑剩余节点的半局域信息和已移除节点的半局域信息基础上,通过递归移除方式确定最终的关键节点集.[结果]6组实际合作网络数据实验表明,改进的K-shell分解算法能够有效消除原有算法中的退化性问题,具有较高的计算准确性和较低的计算复杂度,适用于大规模合作网络中关键节点集的识别.[局限]受网络结构属性的影响,在部分样本网络中计算准确性低于介数中心性方法.[结论]通过对改进的K-shell分解算法计算所得的核心节点集的有效保护,能够提升合作网络的稳定性,有利于合作网络目标的实现.

    合作网络分解算法关键节点集计算复杂度