首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    充分利用大型语言模型实现更智能、更具包容性的社会

    88页

    基于迁移学习增强的多标签多文档分类模型的补充性问答推荐研究

    李莹李明
    89-99页
    查看更多>>摘要:[目的]针对在线问答社区的问答文档识别和推荐补充性问答,提出一种基于迁移学习增强的多标签多文档分类模型的补充性问答推荐方法.[方法]提出新的特征与已有特征一起用于问答补充关系分类,建立迁移学习增强的多标签多文档分类模型,用于识别和推荐补充性问答.[结果]在知乎社区真实数据集上三个元任务的结果表明,本文所提推荐方法的精确度、召回率和F1值平均提升48.29%、15.75%和32.53%.[局限]仅将方法应用在知乎的健康问答主题上,未验证在不同平台与不同主题问答中的效果.[结论]本文所提推荐方法能够有效推荐补充性问答,帮助问答社区用户更加全面地获取问答,促进社区中知识的利用.

    问答推荐问答补充关系小样本分类多标签多文档分类

    DataSeer支撑开放科学从政策到落地

    99页

    字音和字形能有效增强汉字的表示吗?——基于命名实体识别任务的验证

    段宇锋张美聪刘宴佐贺国秀...
    100-111页
    查看更多>>摘要:[目的]验证汉字的字音和字形对增强汉字表示的有效性.[方法]基于命名实体识别任务,分别以通用嵌入模块、双向LSTM模块、Softmax激活的全连接网络模块作为模型的基准字嵌入层、上下文编码层、解码层,在M SRA、PeopleDaily、CCKS2017、Resume、E-Commerce等数据集上,比较以汉字拼音、汉字图像、五笔字型码、四角码、仓颉码、偏旁部首增强字嵌入后Micro-F1值和各实体F1值的变化.[结果]使用字音、字形增强字嵌入,模型在MSRA、PeopleDaily数据集上的性能下降近0.010,在CCKS2017、Resume、E-Commerce数据集上的性能变化无统计学意义.[局限]仅使用32×32像素的简体字图像,可能影响字形特征的提取.[结论]字音、字形特征在增强字的表示的同时也引入了噪音,在不同语料和实体上表现出差异化的效果.

    字嵌入特征融合字音命名实体识别字形

    一种更快、更好的通用机器人训练方法

    111页

    基于改进CasRel实体关系抽取模型的在线健康信息语义发现研究

    成全蒋世辉李卓卓
    112-124页
    查看更多>>摘要:[目的]实现对互联网医疗健康平台用户生成的大量复杂信息的语义发现与关系揭示.[方法]构建基于改进CasRel实体关系抽取模型的在线健康信息语义发现模型,基于CasRel模型在文本编码层引入更适用于医疗健康领域的ERNIE-Health预训练模型,在主体、关系及客体解码层使用多级指针网络标注和神经网络融合主体特征进行关系及客体的解码.[结果]相较于原始CasRel模型,改进后的CasRel实体关系抽取模型在在线健康信息语义发现的实体识别和实体关系抽取任务中,F,值分别提升7.62个百分点和4.87个百分点.[局限]模型的整体效果还需要在数据集的体量扩充、不同疾病类型的健康信息实证环节进行验证.[结论]本研究提出的改进CasRel实体关系抽取模型能有效提升在线健康信息的语义发现能力.

    在线健康信息实体抽取关系抽取语义发现

    "论文工厂"的自动检测特征模型研究

    胡天翼刘建华鄂海红丁峻鹏...
    125-135页
    查看更多>>摘要:[目的]探索"论文工厂"论文自动检测的特征模型,构建从多个维度自动化甄别"论文工厂"论文的工具,为我国科研诚信治理和学术出版质量控制提供重要支持.[方法]从撤稿观察等网站搜集"论文工厂"论文的撤稿记录及关联数据资源,构建用于训练及评价"论文工厂"自动化检测模型的首个公开数据集,构建文本随机游走策略与文本注意力机制的"论文工厂"论文分类模型(RWTA-Model),建模33种"论文工厂"文法特征,并使用SHAP方法自动挖掘显著特征.[结果]基于标题结构特征、基于摘要结构特征、基于正文结构特征F1值分别达到0.766 9、0.842 3、0.848 0.对于三种文章结构数据,所提方法与多种基线方法对比均取得了最好的结果,并挖掘了 12种显著的文法特征.[局限]支撑特征构建的数据集集中于生物医学领域,存在领域偏见的潜在风险.[结论]构建的"论文工厂"标题、摘要和正文结构三个维度的分类模型与33种维度的自动检测特征模型,可以有效甄别出"论文工厂"论文并挖掘多维度特征,支撑"论文工厂"论文的自动化检测.

    论文工厂科研诚信深度学习自然语言处理

    一种科研机构整体预算绩效评价预测方法

    何峻于建军荣晓慧
    136-145页
    查看更多>>摘要:[目的]保证科研机构整体预算绩效评价的客观性、及时性和准确性,提升绩效评价工作效率.[方法]提出一种基于LightGBM的科研机构整体预算绩效评价预测方法,融合科研管理信息化系统多元数据,依据科研投入和成果产出数据与科研绩效间的相关性,利用机器学习算法分析和预测科研机构整体预算绩效评价结果.[结果]在科研机构整体预算绩效评价应用中,本文提出的绩效评价预测方法准确率为94.12%,预算绩效评价过程所需的人力资源由原来的10人减少至5人,时间成本由原来的38天左右降低至10天左右.[局限]部分绩效评价指标为主观指标,难以通过科研管理信息化系统中的业务数据进行量化.[结论]本文方法在整体预算绩效评价结果预测中表现优异,能够减少主观评价带来的公允性问题,同时还能节省预算绩效评价工作的人力资源和时间成本,提高绩效评价效率.

    预算绩效评价机器学习LightGBM算法

    CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型

    石斌王昊刘懋霖邓三鸿...
    146-158页
    查看更多>>摘要:[目的]构建中国陶瓷图像描述模型CCI-ClipCap,为陶瓷文化研究和数字化保护提供技术支撑.[方法]在ClipCap的基础上,引入Prompt范式改善模型对跨模态数据的理解,实现对陶瓷图像的自动描述,提出一种针对具有一定表述结构的文本相似度评估方法.[结果]CCI-ClipCap模型利用Prompt范式改进了多模态融合过程,能够很好地提取陶瓷图像的信息,并生成与实际相符的描述文本,Bleu、Rouge值等相较于基线模型分别提升了约0.04、0.14.[局限]所使用的数据来源于大英博物馆的馆藏数据,而非中文原生数据集,数据来源较为单一.[结论]CCI-ClipCap模型生成的文本表达层次丰富,能够理解陶瓷领域知识,具有较强的专业性.

    数字人文图像描述多模态学习ClipCapPrompt