首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    领域知识演化分析方法综述

    李雪思张智雄王宇飞刘熠...
    1-15页
    查看更多>>摘要:[目的]领域知识演化分析是图书情报学界长期关注的一个重要研究问题.本文对国内外有关领域知识演化分析方法的研究进行总结梳理,为后续的相关研究提供参考.[文献范围]利用领域知识演化的关键词在CNKI和Web of Science中检索,并对检索结果进行人工判读和分析,选取与领域知识演化分析方法密切相关的84篇重点文献进行综述.[方法]通过回顾研究文献,对领域知识演化的相关概念进行辨析,在此基础上将现有的领域知识演化分析方法分为基于引用、基于结构和基于内容的三类.在对每类分析方法梳理过程中,首先辨析该类方法的理论依据,然后阐述该类方法的基本分析思路并介绍相关进展,最后对现有的领域知识演化分析方法进行总结和展望.[结果]现有的三类领域知识演化分析方法依托于各自的科学理论,借助技术的进步和数据资源的完善,不断深化改进演化分析的思路框架;虽然取得了丰富的研究成果,但并没有在知识演化分析的研究角度上产生突破,无法根本性地解决当前研究视角下的局限性.[局限]基于筛选后的文献进行综述分析,可能未全面覆盖相关的研究工作.[结论]领域知识演化分析的未来研究中有以下两个方向值得重点关注:一是尝试拓展新的领域知识演化分析切入点,二是尝试交叉融合已有的研究方法以改善现有分析方法下的局限.

    领域知识知识演化演化分析

    可解释机器学习在信息资源管理领域的应用研究综述

    刘智锋王继民
    16-29页
    查看更多>>摘要:[目的]对可解释机器学习方法及其在信息资源管理领域的应用研究进行梳理和总结,发现不足并做出展望.[文献范围]使用可解释机器学习的相关关键词构建检索式,在中国知网和Web of Science等平台中检索,根据纳入排除标准,共获取44篇相关文献进行评述.[方法]从机器学习流程出发,构建一般性的可解释机器学习框架,重点梳理可解释机器学习方法分类,然后对可解释机器学习在信息资源管理领域的应用现状进行归纳总结.[结果]一般性的可解释机器学习框架包含事前解释、可解释模型以及事后解释三个不同的模块;事后可解释方法在健康信息学、网络舆情、科学计量学以及社交网络用户行为等领域具有广泛的应用,其中常用的方法为SHAP和特征重要性分析;现有研究存在应用方法单一和融合不足、因果关系探究不够、针对多源异构数据的解释不足以及领域应用有待拓宽等问题.[局限]本文重点关注可解释机器学习的应用及存在的不足,未对算法原理进行深入阐述.[结论]未来研究应加强可解释机器学习方法的融合使用,探究基于因果机器学习的可解释机器学习,引入面向多源异构数据的可解释机器学习方法,拓宽在信息推荐、信息检索和信息计量等多个领域的应用.

    可解释机器学习SHAP信息资源管理研究进展

    ULEO:表示合成实验规程的实验操作统一语言

    付芸朱丽雅李丹孙蒙鸽...
    30-39页
    查看更多>>摘要:[目的]面对智能科研与科学机器人对高质量实验规程数据的需求,解决合成实验规程中的实验操作词统一表示问题.[方法]综合利用数据和专家知识协同驱动的方式,从合成相关的论文与专利文本中识别并标准化实验操作词.实验操作词识别主要选用较为先进的开源大模型ChatGLM2-6B,实验操作词标准化则混合应用Wu-Palmer和余弦相似度,辅以专家经验知识判别分类的准确性.[结果]分别获取149个无机合成实验操作词和141个有机合成实验操作词,两者交集124个词.经判定在两类合成实验中分别出现的操作词中多数并不具备鲜明的类别特色,因此可取两类合成实验操作词的并集,共计166个,用于统一表示有机、无机及其杂化合成实验操作.[局限]仅使用基础的提示工程来激发大模型识别实验操作词,准确率有待提升;所用的数据主要源于当前免费公开的数据集,不够全面、丰富;仅关注合成、工程和基础步骤中涉及的操作词,未涉及动态、分析与命名反应中的操作词.[结论]本文构建一套表示合成实验操作的统一语言,用于表示有机、无机及其杂化合成反应中的实验操作,不同类型的合成实验操作词在表示上差异不大,在使用频次和倾向上确有不同,今后可据此优先选择研制科学机器人相应的实验操作功能.

    实验操作统一语言智能科研合成实验规程实验操作科学机器人

    基于SHAP解释方法的智慧居家养老服务平台用户流失预测研究

    刘天畅王雷朱庆华
    40-54页
    查看更多>>摘要:[目的]构建智慧居家养老服务平台用户流失预测模型,并使用SHAP解释方法分析不同特征的影响.[方法]基于智慧居家养老服务平台用户在2019年至2021年三年间产生的超过30万条社区居家养老服务订单数据,通过改进的RFM模型(RFM-MLP)、马斯洛需求层次理论、安德森模型并结合Boruta算法确定用户价值特征、服务选择特征、个人特征三类共11个特征.建立5种机器学习模型,从中选择效果最好的XGBoost模型预测用户流失,运用SHAP解释方法完成特征影响全局解释、特征依赖分析、单样本解释分析.[结果]模型预测结果准确率和F1值均达到87%左右,家政服务服务购买次数、留存天数、年龄等是预测养老服务平台用户流失的重要特征.[局限]仅选取一个地区的数据进行分析,数据量和算法复杂度方面还有提升空间.[结论]SHAP解释方法可以兼顾机器学习预测模型的精度和解释性,能够为智慧居家养老服务平台在运营策略和内容设计方面的优化提供依据.

    智慧养老用户流失XGBoost可解释性机器学习SHAP

    在机器人训练中使用众包反馈,让人类引导其探索

    54页

    融合抽象语义表示和依存语法的方面级情感分析

    李雪莲王碧李立鑫韩迪轩...
    55-68页
    查看更多>>摘要:[目的]充分融合自然语言句子的深层语义表示和表层语法结构,实现语义和语法的互补.[方法]提出基于规则串联的抽象语义表示和依存语法集成策略,并进行方面级情感分析.该策略利用回答集编程语言(ASP)将抽象语义表示、依存语法、词性分别表示为ASP事实,并基于抽象语义规则,通过规则体扩展的方式集成依存语法和词性,即将一个句子中的多种语言特征依次在规则体中进行串联来使用.该策略实现了两种方法:集成语义、语法和词性信息的AMR-DEP-POS-C方法;忽略词性信息的AMR-DEP-C方法.[结果]在8个公开评论数据集上的实验表明,AMR-DEP-POS-C方法能够实现语义和语法间的互补,比语义规则方法、语法规则方法以及基于深度学习的方法具有更好性能.[局限]该方法依赖于现有抽象语义表示和依存语法分析工具的准确性.[结论]AMR-DEP-POS-C方法具有可解释性,不需要大规模数据集,能够有效融合不同的语言特征,可为方面级情感分析任务带来新的研究视角和工具.

    抽象语义表示依存语法规则方面级情感分析

    考虑评论情感表达力及其重要性的个性化推荐算法

    李慧胡耀华徐存真
    69-79页
    查看更多>>摘要:[目的]针对数据稀疏性问题,为探索情感表达对用户特征表示的影响,提出一种考虑评论情感表达力及其重要性的个性化推荐算法.[方法]使用BERT预训练语言模型获取评论文本的向量表示,通过Bi-GRU网络学习其中的语义特征,分别采用情感权重和注意力机制为评论向量分配权重,最后利用DeepFM算法对用户特征和产品特征进行深度交互,预测用户对产品的评分值.[结果]在Amazon Product Data数据集上的实验结果表明,所提算法比基线算法在RMSE和MAE指标上最多可降低24.43%和31.44%;使用情感权重为用户评论加权的方法相比于注意力机制,在RMSE与MAE指标上最多可降低2.59%和3.89%.[局限]所用情感分析方法无法表现用户对产品不同属性的情感倾向.[结论]所提算法考虑了情感对用户特征表达的影响,能够提高推荐准确性.

    推荐算法深度学习情感分析注意力机制

    部分网络游戏使用暗黑设计来收集玩家数据

    79页

    考虑长短期兴趣及其演化的电影个性化动态推荐研究

    刘瑞陈烨
    80-89页
    查看更多>>摘要:[目的]提出一种考虑长短期兴趣及其演化的电影个性化动态推荐方法,捕捉用户兴趣动态变化以提高推荐准确度.[方法]首先,基于观影心理动机将用户兴趣分为长期兴趣和短期兴趣,利用兴趣评分与关注频率计算长短期兴趣值;其次,利用时间窗口与遗忘曲线函数获取时间权重,结合短期兴趣值与时间权重拟合短期兴趣的演化规律;最后,将电影评分与长短期兴趣值相融合,构建用户一项目评分矩阵,预测目标用户评分.[结果]以豆瓣网数据集为例,所提方法的评分预测误差与其他推荐方法相比整体偏小,在评估指标MAE(1.003 1)和RMSE(1.216 0)上表现最优,达到MAE和RMSE最优值时所需邻居数(20)最少.[局限]由于要结合显式反馈信息与隐式反馈信息共同计算长短期兴趣值,因此所提方法的计算复杂度较高.[结论]所提方法能够准确捕捉用户兴趣的动态变化,有效降低评分预测误差,提高推荐准确度.

    电影推荐兴趣漂移长短期兴趣动态推荐

    探寻式搜索中用户满意度状态识别与演化规律研究

    赵一鸣陈湛张帆
    90-103页
    查看更多>>摘要:[目的]识别探寻式搜索中的用户满意度状态,揭示用户满意度与用户查询式重构模式之间的相互作用关系和动态演化规律.[方法]利用用户查询、时序等特征,基于4种有监督学习算法进行用户满意度预测;通过挖掘用户满意度与查询式重构模式之间的相互影响规律,指导探寻式搜索智能辅助中的查询式重构推荐策略.[结果]在开放基准数据集上,所构建的满意度预测模型的预测准确率最高达到74%,优于已有基线模型;同时,相关性分析的结果表明用户满意度与查询式重构模式之间的关联关系显著.[局限]用户满意度仅代表搜索状态的一种视角,未来需要针对探寻式搜索中的用户状态构建完善统一的描述和分类体系.[结论]利用探寻式搜索中的用户搜索行为,优化了模型特征,进一步提升用户满意度预测模型的性能,并结合用户满意度演化规律,为探寻式搜索中的智能搜索辅助策略提供了有效的理论支撑.

    探寻式搜索用户满意度用户满意度预测查询式重构