首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    网络结构变动对共词网络链路预测效果的影响研究

    陈卓蒋茜茜张晓娟
    114-130页
    查看更多>>摘要:[目的]研究共词网络结构变动对链路预测相似性指标预测效果的影响.[方法]本文从Web of Science核心合集中随机获取5个学科2015-2020年的文献数据;根据不同的关键词频次,分别构建不同网络拓扑结构特征的共词网络;选取AA、CN、RWR、Katz等15个传统链路预测相似性指标,在各共词网络上进行链路预测实验,以此对比分析不同指标在网络结构变动环境下的预测效果.[结果]不同学科中,共词网络的关键词频次越大,平均聚类系数越小,密度、网络传递性、平均度、平均度中心性、平均中介中心性、平均接近中心性越大,链路预测效果越差的可能性较大;反之,平均聚类系数越大,其余网络拓扑结构属性特征越小,链路预测效果越好的可能性较大.在所选取的15个相似性指标中,RWR指标在不同拓扑结构特征的共词网络中均表现最好;Katz指标的预测效果最稳定.从学科来说,各指标的预测结果在LAW学科中受网络结构变动的影响最大.[局限]由于计算空间有限,仅采用单个分类方法和评价指标,并且仅停留在基于节点相似性指标的探讨,缺乏对其他类别指标(如基于似然分析和基于概率模型等指标)的研究.[结论]从共词网络的关键词频次出发,探讨了各网络结构变动对链路预测效果的影响,为不同学科及不同大小的共词网络选取相似性指标提供了理论依据.

    共词网络链路预测网络结构相似性指标

    基于时间序列异常检测的热点事件发现

    杨欣谊马海云朱恒民
    131-142页
    查看更多>>摘要:[目的]研究发现信息话题并找到激发公众讨论的现实事件.[方法]构建共词网络检测社团表示话题,基于文档词与话题社团词的重合度计算文档话题向量并依据文档时间计算话题热度时间序列,借助STL分解时间序列并利用3σ原则检测异常,结合异常时点话题的高频词与高相关文档发现激发讨论的现实事件.[结果]以新浪微博河南暴雨的相关发帖为例,发现涉及灾情态势、应急管理以及社会响应等方面的话题.异常检测与分析表明,灾情态势类话题的公众关注度最高,雨情预警及相应防汛行动等是热点事件;应急管理中的抢险救援工作与事故调查情况能够激发讨论;在社会响应方面,受灾者互救事迹、公益捐赠事迹易引发关注.[局限]数据集较小,因而在异常时点检测的阈值判断中使用人工观察设定阈值的方式,在面对较大数据集时需要使用自动阈值确定方法.[结论]话题热度时间序列的异常检测能够发现社平台的热点事件,且在舆情响应中,管理部门需要从救援、预防和恢复三方面出发,及时发布预警信息,公开救灾情况及事故调查情况等回应公众关切,并通过救援、互助、捐赠等事迹的宣传引导积极健康的舆论走向.

    异常检测话题热度时间序列社团检测在线社交平台

    基于Stacking集成学习的用户付费转化意向预测方法研究——以免费增值游戏为例

    李美玉刘洋王艺璇朱庆华...
    143-154页
    查看更多>>摘要:[目的]提出基于Stacking集成学习预测用户付费转化意向的模型,精准识别潜在付费用户.[方法]基于Stacking集成学习方法构建付费意向预测模型,通过对比不同基模型组合预测效果确定基模型组合方案,借助游戏玩家行为数据集验证模型优越性,并进行可移植性验证.[结果]本文模型预测准确率达90.88%,F1值90.71%,AUC值0.960 2,相对于对比模型中表现最差的Bayesian模型在三种指标上分别提升4.15个百分点、4.50个百分点和0.106 2.[局限]无法预测玩家是否会产生非理性消费行为.[结论]本研究验证了游戏付费情境下Stacking集成学习方法的适用性,多模型的融合可以获得稳定、准确的付费意向预测结果,并证明了模型在预测不同领域用户付费意向上具备可移植性.

    Stacking集成学习模型融合免费增值模式付费意向可移植性

    变革之旅:2024年十大科学传播趋势

    154页

    基于关系融合和双向扩散模型的药物与靶标关系预测方法研究

    张云秋黄麒霏朱祥
    155-167页
    查看更多>>摘要:[目的]提出了一种新的药物与靶标关系预测方法来提升预测性能.[方法]进一步丰富网络的语义信息,采用SNF、AVG和MAX方法分别对药物相似性网络和靶标相似性网络中的多种语义关系进行融合.基于关系融合后的相似性网络和已知的药物-靶标互作网络构建双向扩散模型,以实现药物与靶标关系预测.[结果]实证研究表明,本文方法相较于主流的预测方法在AUC值指标上分别提升了2.2%和12.8%.并且通过对预测结果进行文献回溯,预测分数排在前10、20和30位的药物-靶标关系对中,可以分别在文献中找到3、8和11对药物-靶标的相关线索与证据.另外,SNF的融合效果最优,能够最大程度提高预测的性能.[局限]未融合药物或靶标客观属性上的相似性,如药物的化学结构或靶标的序列结构相似性,并且针对新药物和新靶标关系发现的冷启动问题仍待解决.[结论]本文提出的预测方法具有一定的优越性和有效性,可以为药物重定位以及其他生物医学实体的关系预测相关研究提供参考.

    药物靶标机器学习SNF

    《数据分析与知识发现》期刊征文

    168页