首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    融合学术文本词汇功能属性的交叉领域新兴社群预测

    操玉杰向荣荣毛进袁丹妮...
    99-111页
    查看更多>>摘要:[目的]充分挖掘科学知识网络社群多元特征,提升领域新兴趋势预测效果.[方法]基于e-Health领域新兴社群到热点社群的成长路径回溯,本文提出一种融合词汇功能属性的新兴趋势多元特征预测模型.[结果]在e-Health领域,所融合的主题、技术等词汇功能属性特征能够提升新兴趋势预测性能,综合结构、影响、序列和属性4组特征的RF算法模型效果最佳.词汇功能属性规模大、密度低、中介中心性高、波动率大的社群更有可能成为新兴社群.序列特征对新兴社群预测效果欠佳,可能受到新兴社群的前瞻性影响.[局限]词汇功能识别结果存在一定领域依赖,结论扩展到其他领域的有效性需进一步验证.[结论]充分挖掘科学文本词汇细粒度语义特征,能够有效提升新兴趋势预测性能,对科学内容评价和科技决策支持具有一定参考意义.

    新兴趋势词汇功能社群预测机器学习

    基于深度文本聚类的论文与专利数据融合方法研究

    谢士尧王小梅
    112-124页
    查看更多>>摘要:[目的]克服论文与专利之间语言特征差异的障碍,将论文和专利数据按照研究主题集成融合.[方法]以维基百科为基本分类体系,通过半自动方式构建少量标注集,设计半监督深度文本聚类模型,将相似主题的论文与专利聚类融合,设计指标评估数据融合结果的质量.[结果]所提模型在两个数据集上的聚类准确率比其他基线模型提升了 2.4~11.9个百分点,数据融合结果的质量评估得分超过0.9,优于基线模型,可以在已知主题的基础上补充研究主题.[局限]未利用融合数据开展实证分析,聚类数目需要人工确定.[结论]所提模型可以从论文和专利差异化的文本中提取与主题相关的特征,有效地实现数据融合.

    深度文本聚类数据融合论文专利研究主题识别

    基于图卷积网络和注意力机制的谣言检测方法

    凤丽洲刘馥榕王友卫
    125-136页
    查看更多>>摘要:[目的]针对目前的谣言检测方法未能充分考虑评论间的转发关系特征和文本语义特征,提出一种基于图卷积网络和注意力机制的谣言检测方法.[方法]首先,对评论间转发和回复关系特征进行分析,构建评论关系特征图,充分挖掘评论间的关联特性.然后,根据评论间的文本语义相似性,使用BERT模型生成句子的向量化表示并通过计算余弦相似度构建评论的语义特征图,充分提取评论的语义相关性.最后,基于图卷积网络完成不同节点之间的信息传递,并在各节点信息传输过程中使用注意力机制区分源评论和其他评论对谣言检测的影响,进而得到评论节点的准确表示.[结果]在公开数据集上进行实验,结果显示所提方法在Twitter15和Twitter16数据集上的准确率分别达到0.860和0.870,F1均值分别为0.858和0.866.与BiGCN方法相比,准确率分别提升了5.1%和1.5%,F1均值分别提升了5.0%和1.9%.[局限]仅使用文本数据进行谣言检测,未结合图片、用户属性及时间属性等特征.[结论]在公开数据集上进行应用,验证了所提方法可以有效地提升谣言检测性能,为谣言识别与检测任务提供有价值的参考.

    图卷积网络注意力机制谣言检测BERT模型

    基于空间-邻域自适应的图卷积神经网络信贷欺诈检测模型

    张岚泽赵晓亮刘津彤顾益军...
    137-151页
    查看更多>>摘要:[目的]为信贷欺诈检测提供兼具空间和邻域自适应性的图卷积神经网络模型.[方法]提出双曲跳跃图卷积神经网络.在空间自适应方面,将节点属性表示为双曲空间可训练曲率,从而完成欺诈网络的低失真嵌入表示;在邻域自适应方面,定义双曲跳跃连接框架(HJK-Net)框架,通过双曲层间聚合机制对邻域表示结果进行融合.从而为关系网络提供融合空间和邻域自适应性的图表示学习结果,进而完成信贷欺诈检测任务.[结果]通过在公开且来源于实际业务场景的大型社交网络中部署实验,所提模型的AUC指标达到0.833 5,相比于以GraphSAGE(NS)为代表的基线模型提升0.059 4.[局限]浅层社交网络对邻域自适应性的优势略有限制,所提模型在大型复杂深度网络结构中优势更加明显.[结论]空间自适应为节点属性相关性提供更准确描述,邻域自适应为图表示学习选择最优的邻域聚合范围;融合空间和邻域自适应的模型在大型欺诈关系网中具备更好的识别效果.

    图卷积神经网络图表示学习双曲空间空间-邻域自适应性信贷欺诈检测

    基于采莓模型启示的探索式与查找式意图自动识别研究

    刘杰桂思思张晓娟
    152-166页
    查看更多>>摘要:[目的]通过选取新分类特征,提高探索式与查找式意图自动识别的准确度.[方法]在AOL查询日志中,选取1 805个查询并对其进行人工标注;在采莓模型的启示下,分别从查询性质、搜索过程与信息来源三个层面提出分类特征;进一步比较所提出特征在朴素贝叶斯、SVM、决策树、随机森林与神经网络5种分类模型中的分类效果;最后分析不同特征集合以及每个特征的分类效果.[结果]三种分类特征均能对探索式与查找式意图进行有效区分,其中查询性质相关特征的识别效果最佳;在5种分类模型中,采用神经网络算法的分类模型性能最佳(Accuracy=0.817 2,Precision=0.849 4,Recall=0.774 7,F1=0.810 3).[局限]未在多个数据集中验证新提出的分类特征的性能;未充分挖掘用户搜索行为以此形成更多有效的分类特征;由于人工标注存在高耗时、高人力成本等问题,使得最终应用于探索式/查找式意图识别的数据集有限.[结论]基于采莓模型启示提出的特征能对探索式与查找式意图进行有效区分.

    查询意图识别探索式意图查找式意图采莓模型