首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    突发公共卫生事件下不同人格特质公众的信息需求比较分析

    裘江南徐雪冬谷文静金碧瑶...
    119-131页
    查看更多>>摘要:[目的]研究不同人格特质与公众的信息需求之间的关系,揭示不同人格特质公众的信息需求的差异.[方法]选取语言学与行为特征构建人格分类模型并预测公众人格特质,基于关键短语提取方法、Jaccard文本聚类方法与ERG理论进行信息需求挖掘与归类,采用单因素方差分析与逻辑回归分析方法研究公众不同人格特质与公众的信息需求类别之间的关系.[结果]公众的信息需求涵盖医疗资源、预防、症状、诊断与治疗、公众症状情绪分享、情感支持、疾病认知、社会影响和疫情发展9个主题,最后归为生存信息需求、关系信息需求、成长信息需求三类.生存信息需求与严谨性正相关;关系信息需求与外向性正相关,与神经质负相关;成长信息需求与神经质和宜人性正相关.[局限]没有考虑公众的信息需求动态性这一特征,后续研究可对事件不同发展阶段的公众的信息需求做进一步分析.[结论]研究结果能够帮助政府部门深刻理解不同人格特质公众差异性的信息需求,为政府相关部门有针对性地进行智慧化信息公开与风险沟通提供支持.

    突发公共卫生事件大五人格信息需求挖掘

    基于主题覆盖度的科研项目评审专家组推荐方法研究

    刘晓豫汪雪锋朱东华
    132-143页
    查看更多>>摘要:[目的]针对科研项目同行评议过程,测度专家知识对科研项目主题的覆盖,并通过主题覆盖度为科研项目推荐评审专家组.[方法]提出科研项目评审专家组推荐的三个原则:主题覆盖度最大原则、知识匹配度最大原则、工作量适宜原则.提出基于Overlapping K-means的专家和待评审项目研究主题识别方法,以识别专家和待评审项目的一个或多个研究主题.以主题覆盖度最大为优化目标,提出基于主题覆盖度的专家组推荐模型,通过将推荐问题转化为优化问题,实现科研项目评审专家组的推荐.[结果]案例研究结果表明,通过本文方法构建的专家组在主题覆盖度上平均达到65.13%,相比于两组对照实验分别提高32.38个百分点和29.01个百分点.[局限]案例研究的样本量较为有限,未定量化探讨如何实现科研项目评审专家组推荐三个原则的多目标优化.[结论]本文提出的方法可以有效提高科研项目评审专家组对科研项目的主题覆盖度.

    科研项目评审评审专家组专家推荐主题覆盖度

    机器学习将社交媒体仇恨言论识别准确率提高到88%

    143页

    基于融合多策略对比学习的中文医疗术语标准化研究

    岳崇浩张剑吴义熔李小龙...
    144-157页
    查看更多>>摘要:[目的]应对中文医疗术语标准化存在的短文本、相似性高、单蕴含与多蕴含等挑战,研究基于融合多策略对比学习的召回-排序-数量预测研究框架.[方法]首先,融合文本统计特征和深度语义特征进行候选召回,依据相似度分数获取候选实体集;其次,候选排序将原始术语、标准实体、来自候选召回的候选实体结合预训练模型与对比学习策略训练向量表示,依据余弦相似度重新排序;再次,数量预测通过多头注意力更新原始词的向量表示,预测原始术语中蕴含标准实体的数量;最后,融合候选召回和候选排序的相似度分数,基于数量预测结果按照顺序选取对应标准实体.[结果]在中文医疗术语标准化数据集Yidu-N7k上进行性能评估,与统计模型、主流深度学习模型进行比较,融合多策略对比学习的标准化框架的准确率达到92.17%,对比基于预训练的二分类基线模型最多提高0.94个百分点.同时,在自制的150例女性乳腺癌钼靶检查报告数据集上,融合多策略对比学习的标准化框架的准确率达到97.85%,性能最优.[局限]实验只在医疗数据集上展开,在其他领域的有效性需进一步研究.[结论]多策略的候选召回可以全面地考虑文本信息能够应对短文本挑战;对比学习的候选排序能够捕捉文本细微差距能够应对相似性高挑战;多头注意力的数量预测能够增强向量表示能够应对单蕴含与多蕴含挑战.融合多策略对比学习的中文医疗术语标准化方法为促进医学信息挖掘和临床研究提供了潜力.

    医疗术语标准化多策略候选召回对比学习乳腺癌钼靶检查报告

    面向TRIZ的专利技术三元组抽取研究与应用

    刘春江李姝影方曙胡正银...
    158-167页
    查看更多>>摘要:[目的]针对专利技术三元组自动抽取的准确性和效率不高的问题,研究专利技术三元组抽取的模型,以提升个性化、细粒度、多维度的深度抽取与语义关联的准确性.[方法]针对技术问题、解决方案、技术功能与技术效果等4个技术主题维度,提出基于WeakLabel-Bert-BiGRU-CRF模型的抽取方法,使用宏平均等指标进行模型评估.[结果]选择石墨烯能量存储应用领域专利作为数据集,实验结果表明,相比于Bert-BiGRU-CRF模型,所提模型针对三元组抽取的宏平均超过0.8,进一步减轻了数据标注的工作量,抽取效果更好.[局限]所提模型需要领域专家和专利情报分析人员共同参与数据标注,标注质量的不同会对应用效果产生影响.[结论]基于WeakLabel-Bert-BiGRU-CRF模型,研建对应的原型系统,以便后续进一步使用与推广专利技术三元组抽取方法,在科技文献知识挖掘领域也有较广泛的应用前景.

    TRIZ三元组抽取专利技术WeakLabel-Bert-BiGRU-CRF

    《数据分析与知识发现》期刊征文

    168页