首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    AI赋能的P4ST决策智能分析:寻找知识服务的新质生产力

    张晓林
    1-9页

    AIPolicy for Science and TechnologyKnowledge ServicesNew Quality Productive Forces Decision IntelligenceDecision-making Genomic ModelAI for P4ST Chain of Analyses

    基于图神经网络的知识图谱补全研究综述

    吴越孙海春
    10-28页
    查看更多>>摘要:[目的]通过调研和梳理文献,总结基于图神经网络的知识图谱补全方法.[文献范围]以"Knowledge Graph Completion"、"知识图谱补全"作为检索词在Web of Science、DBLP和CNKI数据库中进行检索,共筛选出79篇文献.[方法]分别归纳总结图卷积神经网络、图注意力网络、图自动编码网络三种基于图神经网络的知识图谱补全方法类别,并对每种类别的技术脉络、典型方法、模型框架优缺点等进行对比论述.[结果]运用知识图谱补全任务的常用数据集和评价指标,从MRR、MR、Hit@k等性能评价角度对各类模型的效果进行对比分析,并对未来研究提出展望.[局限]在实验结果对比中,只讨论了FB15K-237和WN18RR数据集上部分应用较广的模型的评估结果,缺乏全部模型在同一数据集上的对比.[结论]相比基于表示学习模型和基于神经网络模型,基于图神经网络模型具有更好的图谱补全性能,但模型关系复杂性高、过平滑、可扩展性通用性差,这也是未来研究要解决的问题.

    知识图谱补全图神经网络图卷积神经网络图注意力网络图自动编码网络

    科技文献评价中语义新颖性研究综述

    吴欣雨李涵昱张智雄吴振新...
    29-40页
    查看更多>>摘要:[目的]对国内外语义新颖性研究相关进展进行归纳整理,总结相关技术,为后续研究提供参考.[文献范围]利用"novelty of the literature""semantic novelty""文献新颖性"等关键词及"语义新颖性and文献评价"等检索式在Web of Science、Elsevier、Springer、谷歌学术及中国知网、万方、维普等数据库中进行文献检索,经过阅读整理并对具有代表性的相关理论进行溯源,最终筛选出70篇文献进行评述.[方法]对国内外语义新颖性相关研究进行梳理,围绕新颖性定义、新颖性评价指标和不同评价方法等分析科技文献语义新颖性评价的发展现状及未来趋势.[结果]语义新颖性评价逐渐受到学界的广泛关注,已有相关研究对语义内容进行挖掘评价,但尚未形成统一的度量指标.[局限]现有的文献新颖性多从外部特征进行评价,直接以语义新颖性为主题的研究文献数量较少,在支撑综述方面存在局限性.[结论]科技文献的语义新颖性评价根本在于语义内容的新颖性,定量研究已成为主流研究方法,但评价指标的计算方式尚需明确,未来的新颖性评价发展方向应结合定性与定量方法全面分析,实现科学、合理的综合学术评价.

    新颖性评价语义评价文献计量语义新颖性

    结合梯度提升树算法与可解释机器学习模型SHAP的抑郁症影响因素研究

    聂卉吴晓燕
    41-52页
    查看更多>>摘要:[目的]本研究旨在探讨构建抑郁严重度预测模型及其解释性问题,通过分析互联网用户生成的内容,进一步发展抑郁症风险预测研究,从而提高抑郁症自动检测模型的可靠性和实用性.[方法]通过收集"好大夫在线"平台上的抑郁症医疗咨询文本记录,构建了一个语料库.利用心理学词典,从中提取了患者的心理特征,并采用梯度提升树算法预测患者的病情,同时引入可解释机器学习方法SHAP解读模型,借助SHAP独特的可视化图表剖析患者年龄、性别、认知、情感、感知、社会家庭及个人得失与抑郁症发生之间的复杂关系.[结果]抑郁症患者心理状态能反馈患者病况,利用从患者问诊记录中提取的心理特征能够有效检测重度抑郁,准确率达到86%.可解释机器学习模型SHAP解释了模型的预测结果,揭示出患者各层面心理特征对抑郁症发生产生的多重效应.[局限]受语料集所限,仅利用单次问诊记录对抑郁程度做预测;而模型特征基于心理学词典,更多与抑郁症发生风险有关的要素可纳入建模考虑中.[结论]影响抑郁症产生及发展的因素复杂.个体差异致使各项特征对于疾病预测产生不同效应.构建抑郁症的自动诊断模型,不仅要关注模型的精准度,更需增强对模型预测的理解.

    抑郁症预测在线用户生成内容可解释机器学习梯度提升树算法

    基于情感增强和知识融合的在线健康社区情感分析研究

    张伟徐宗煌蔡鸿宇韩普...
    53-62页
    查看更多>>摘要:[目的]利用在线健康社区文本依存句法结构中蕴含的情感知识进行情感分析,提出一种基于情感增强和知识融合的在线健康社区情感分析模型WoBEK-GAT.[方法]首先,采用WoBERT Plus实现动态词嵌入;其次,利用卷积神经网络(CNN)和双向长短时记忆网络(BiLSTM)提取语义特征;最后,通过情感增强和知识融合策略将剪枝依存句法树中的关键句法信息与外部情感知识充分融合,并输入图注意力网络(GAT)中进而输出情感类别.[结果]在构建的中文数据集上进行对比实验,实验结果表明WoBEK-GAT模型MacroF1值达到88.48%,较基准模型CNN、BiLSTM和GAT分别提升15.49、14.15和13.15个百分点.[局限]未考虑图片和语音等多模态信息中的情感知识.[结论]依存句法信息的加入以及情感增强策略和知识融合策略的结合能够有效提升模型的情感分析能力.

    在线健康社区情感分析情感增强知识融合图注意力网络

    AI实验室合作伙伴"Coscientist"

    本刊讯
    62页

    情感与情境对用户防御性隐私保护行为意愿的影响研究

    刘百灵雷晓芳徐阳
    63-76页
    查看更多>>摘要:[目的]探究威胁评估对用户防御性隐私保护行为意愿的影响机理,有助于企业制定合理的隐私管理决策,进而营造健康的企业数字生态.[方法]基于保护动机理论并聚焦威胁评估,创新性地引入"信息隐私焦虑"作为情感中介变量,将情境的信息敏感度作为调节变量,构建威胁评估对用户防御性隐私保护行为意愿的影响机理模型.运用SEM-PLS对收集的金融情境183份和电子商务情境200份数据进行实证分析.[结果]信息隐私焦虑是影响用户产生防御性隐私保护行为意愿的关键情感因素,信息隐私焦虑在感知威胁和防御性隐私保护行为意愿之间起部分中介作用;情境的信息敏感度正向调节信息隐私焦虑与防御性隐私保护行为意愿的关系;情境的信息敏感度仅对感知脆弱性与感知威胁的关系具有调节作用,而对感知严重性与感知威胁的关系没有调节作用.[局限]第一,探究的是行为意愿而非实际行为;第二,在信息敏感度对比方面,仅选取具有代表性的金融和电子商务两种情境.[结论]本研究补充和发展了保护动机理论,对企业采取合适的管理措施以减少用户防御性隐私保护行为提供理论指导.

    保护动机理论防御性隐私保护行为情感情境

    基于提示学习增强的文本情感分类模型

    黄泰峰马静
    77-84页
    查看更多>>摘要:[目的]解决在样本量不足的情况下,使用预训练模型进行情感分类准确率偏低的问题.[方法]提出一种基于提示学习增强的情感分类模型Pe-RoBERTa,以RoBERTa模型为基础,使用不同于传统微调方法的集成提示方法,通过提示帮助模型进一步理解下游任务,改善模型对文本情感特征的提取能力.[结果]在多个公开的中英文情感分类数据集上的实验表明,少样本场景下模型的平均情感分类准确率为93.2%,相较于传统微调和离散型提示,准确率分别提升13.8%和8.1%个百分点.[局限]处理的数据模态仅限于文本形式,目标任务主要为情感二分类任务,没有做细粒度更高的情感分类任务.[结论]Pe-RoBERTa模型能够有效地进行文本情感特征的提取,在多个情感分类任务中取得较高的准确率.

    Pe-RoBERTa情感分类提示学习特征提取

    人工智能可以进行类似儿童的语言学习

    本刊讯
    84页

    基于深度学习的多模态新闻数据主题发现研究

    倪亮吴鹏周雪晴
    85-97页
    查看更多>>摘要:[目的]基于多模态学习方法,对新闻中文本和图片相结合内容,构建多模态主题模型,自动挖掘新闻中的潜在主题.[方法]采用结合词嵌入的主题模型,从图片和文本两方面进行主题建模,并且使用多模态联合表征学习和协同表征学习的方法进行特征融合.最后,对发现的多模态新闻主题进行可视化分析,结合N15News数据集进行实证研究.[结果]实验结果表明,相对于仅使用文本特征的Label-ETM,多模态主题建模方法可以获得更好的主题的可解释性和多样性.这说明多模态主题建模方法具有一定的可行性与合理性.[局限]本文假设新闻中的图片和文字在语义和主题上是相关的,在弱相关和不相关领域多模态融合方法仍需要改善.[结论]多模态主题建模可以发现不同模态数据之间的联系,提高发现主题的多样性.

    主题模型多模态联合表征多模态协同表征新闻主题发现