首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    基于商业管制清单-专利网络映射的关键核心技术识别研究——以工业软件为例

    朱宇婧陈芳王学昭
    1-13页
    查看更多>>摘要:[目的]针对西方国家对华技术出口管制场景,提出一种在商业管制清单-专利双层网络中映射的关键核心技术识别方法,为遴选和布局技术攻关方向提供参考.[方法]融合美国商业管制清单(CCL)和专利数据,构建管制清单关联网与加权专利引用网的双层网络,在双层网络中分别采用社区发现算法识别技术集群,计算层间集群的语义相似度实现自动映射,并结合Word2Vec与n-gram方法提取集群关键词用于表征技术主题,与CCL集群相似度最大的专利集群所表征的技术即为关键核心技术.[结果]在工业软件领域进行实证的结果表明,所提方法识别出与CCL集群相似度最大的12个不同专利集群,其相似度均在0.85以上,涉及集成电路IP核、精密测量、过程控制、运动控制和涡轮检测等主题,经文献调研验证为工业软件领域的关键核心技术.[局限]仅选取工业软件进行实证研究;技术路线还有待改进;识别结果有待进一步解读分析.[结论]所提方法不仅能够在微观层次高效、准确地识别出关键核心技术,并且自动化程度高、结果易读性强,具有较高的实际应用价值.

    关键核心技术商业管制清单双层网络映射工业软件技术识别

    融合异构网络表示学习与注意力机制的引文推荐研究

    张金柱孙雯雯仇蒙蒙
    14-27页
    查看更多>>摘要:[目的]扩展涉及引文推荐的异构网络涵盖的节点及其关系,对其进行深层次语义表示,揭示不同关系对引文推荐的影响和差异,提高引文推荐效果.[方法]在引入语义链接构建异构网络的基础上,构建融合注意力机制的异构网络表示学习模型,生成深层次的语义和结构表示,引入相似度指标实现引文推荐,并通过消融实验探索不同因素对引文推荐的影响程度.[结果]引入语义链接前后引文推荐模型AUC相对提升0.012;引入双层注意力机制前后AUC相对提升0.079;对比基线模型CR-HBNE,其AUC和AP分别提升0.185和0.204.[局限]手动选取关联路径不够高效,仅根据两项指标对推荐结果进行评价.[结论]本文方法充分利用引文间的复杂关联和深层语义信息,有效提升引文推荐效果.

    引文推荐异构网络表示学习注意力机制

    研究人员发布适用于AI挖掘的2型糖尿病数据集

    27页

    基于图与语义表示学习的专利引文网络链路预测研究

    胡威李姝影张鑫杨宁...
    28-43页
    查看更多>>摘要:[目的]研究优化专利引文网络链路预测模型,以提升技术演化分析和预测效果,进一步完善技术扩散理论与方法.[方法]针对专利文献的特点,构建一种新的链路预测模型框架Graph-PatentBERT-RF.首先,利用GraphSAGE模型获得训练集专利引文网络的向量化表示,利用PatentBERT模型得到4个主题维度的专利技术文本的语义表示向量.其次,融合两部分向量结果以及其他特征,进行随机森林模型训练,最终得到优化后的专利引文网络的链路预测概率值.[结果]在量子传感领域进行实证研究,Graph-PatentBERT-RF模型的综合预测性能效果最优,F1-score指标高于基线模型2.2%以上,并阐释了引用关系与多维度技术文本、时滞等特征之间的非线性关系以及特征之间4层以上的复杂交互作用.[局限]数据预处理步骤有待优化,有望进一步提升模型性能.[结论]本文模型提升了专利引文网络的综合预测性能,为当前引文数据不完整的问题给出了优化解决办法,有助于多种基于引文网络的技术演化分析等应用研究的发展.

    专利引用关系链路预测技术演化路径引用推荐图神经网络

    基于持续学习的多语言情感分析模型

    赵佳艺徐月梅顾涵文
    44-53页
    查看更多>>摘要:[目的]解决多语言模型在处理新语种任务时由于灾难性遗忘导致的性能下降问题.[方法]提出一种基于持续学习的多语言情感分析模型mLMs-EWC,将持续学习思想融入多语言模型中,使模型能够在学习新语种特征的同时,保留已学习到的旧语种语言特征.[结果]在三种语言的持续情感分析实验中发现,mLMs-EWC模型在法语和英语任务中相比Multi-BERT模型准确率高出约5.0个百分点和4.5个百分点.此外,实验还在轻量化的蒸馏模型上评估了 mLMs-EWC模型,结果显示在英语任务上准确率的提升率高达24.7个百分点.[局限]研究聚焦于三种广泛使用的语言,对其他语言的泛化能力还需进一步验证.[结论]mLMs-EWC模型能够在多语言情感分析任务中减轻灾难性遗忘,并在多语种数据集上实现持续学习.

    多语言情感分析持续学习灾难性遗忘

    PubMed Central的未来:面向公共可及性和数字公平的愿景

    53页

    基于PRM-GCN的方面级情感分析研究

    余本功曹成伟
    54-65页
    查看更多>>摘要:[目的]解决现有方面级情感分析研究利用情感知识增强句法依存图忽略了句法可达关系和各词间位置关系,且对语义信息提取不充分的问题.[方法]提出基于位置赋权可达矩阵和多空间语义信息提取的方面级情感分析模型.首先,利用可达矩阵将各词句法可达关系加入句法依存图,依据位置赋权机制修整可达矩阵增强上下文特征提取;其次,与情感增强依存图融合提取方面词特征,并使用多头自注意力机制结合图卷积网络学习多个特征空间的上下文语义信息;最后,将包含位置信息、语法信息、情感知识和语义信息的特征向量融合进行情感极性分类.[结果]与对比模型中较优者相比,在使用GloVe预训练语料库时,PRM-GCN-GloVe模型在数据集Lap14、Rest14、Rest15上的准确率分别提升了 1.00、1.25和0.76个百分点;在使用BERT时,PRM-GCN-BERT模型在数据集 Lap14、Rest14、Rest15 和 Rest16上的准确率分别提升了 0.50、0.22、1.98和0.31个百分点.[局限]未在中文等其他数据集上进行实验.[结论]所提出的模型提高了图卷积特征聚合效果,增强了上下文特征提取,提升了语义学习效果,有效提升了方面级情感分析的准确性.

    方面级情感分析可达矩阵多头自注意力机制图卷积网络位置赋权

    基于提示集成的少样本关系抽取方法

    徐豪帅洪亮侯雯君
    66-76页
    查看更多>>摘要:[目的]解决标注数据稀缺时基于提示学习关系抽取方法标签映射难以构建的问题.[方法]在提示模板中注入关系语义增强提示效果,利用提示集成对输入进行数据增强,通过实例级注意力机制在原型构建过程中提取重要特征.[结果]在公开数据集FewRel上,本文方法的准确率在4种少样本测试场景下分别超越了基线模型2.13个百分点、0.55个百分点、1.40个百分点和2.91个百分点.[局限]在提示模板构造上没有使用可学习的虚拟提示模板,在回答词表示上仍有优化空间.[结论]本文方法有效缓解了少样本场景下原型构建信息有限、准确性不足的问题,提升了模型在少样本关系抽取任务上的准确性.

    关系抽取少样本学习提示学习原型网络

    研究发现青少年的情绪直接受社交媒体"点赞"的影响

    76页

    基于两层异质网络的社交短文本扩展研究

    吴树芳王宏彬朱杰陈婷...
    77-88页
    查看更多>>摘要:[目的]为了解决社交短文本碎片化、网络用语化的问题,利用社交网络中的异质关系实现对社交短文本的扩展.[方法]基于离散度度量社交信息中热点词的不均匀度,以此改进TF-IDF方法,获取初始特征;依据社交网络中的异质关系,构建包括三个子网络的两层异质社交网络,量化网络中用户的重要程度、文本相似度以及用户对社交文本的认可度,获得多源扩展源,实现对社交短文本的扩展.[结果]与已有社交短文本扩展方法相比,所提方法在准确率、召回率、F1值上最高分别提升了约13%、19%、18%.[局限]未考虑间接关系对异质社交网络构建的影响.[结论]利用社交网络中的异质关系能获得更为合理的扩展源,有效扩展社交短文本.

    社交短文本特征扩展两层异质社交网络特征权重