首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    断点回归在政策评估研究中的应用:逻辑、现状与前瞻

    杨寓涵潘虹唐莉
    1-15页
    查看更多>>摘要:[目的]对断点回归设计(RDD)在政策评估领域的经典和前沿研究进行分类综述,对其在我国政策评估的应用前景进行前瞻与讨论.[文献范围]以"Regression Discontinuity"和"断点回归"为主题词分别在Web of Science(SSCI)和中国知网数据库进行检索,人工构建2008~2022期间的中英文断点回归文献数据库.[方法]采用文献计量方法,从RDD的基本逻辑出发,甄选断点回归设计在不同政策领域的应用研究开展综述评析.[结果]分析揭示,继教育、公卫、环境、公共财政等主要应用领域之后,近年来RDD因果推断在国内外科技政策和图书情报领域的政策评估中开始崭露头角.中国学者运用该方法已取得较大进展.[局限]断点回归的文献范围有待进一步扩充,与其他政策评估方法的比较分析可进一步深入.[结论]断点回归方法自提出以来已被大量应用于教育、公共卫生、环境及科技创新等领域的政策评估研究中,未来该方法可增加与准自然实验等其他研究方法的综合研究,扩展断点回归在我国和国际定量政策评估研究的应用分析.

    断点回归设计政策评估循证决策因果推论

    基于大语言模型的问答技术研究进展综述

    文森钱力胡懋地常志军...
    16-29页
    查看更多>>摘要:[目的]全面回顾和概述基于大语言模型的问答技术发展现状、机制原理以及应用趋势.[文献范围]选取与基于大语言模型的问答技术相关的73篇文献.[方法]系统梳理大语言模型的发展现状、参数高效微调策略,分别从面向简单问题的检索增强生成问答推理以及面向复杂问题的提示工程问题推理两方面,深入解析各技术的原理机制、应用价值与存在问题.通过定性分析,全面概述基于大语言模型的问答技术研究进展,并提出未来研究方向.[结果]开源预训练大语言模型不断涌现,高效微调策略可显著提升模型垂直领域适配性.借助文本嵌入与近似最近邻检索技术,检索增强生成技术可有效提升问答可解释性与可信度.借助精心构造的提示工程,可大幅拓展大语言模型的复杂问题推理能力.[局限]大语言模型相关研究发展迅速,调研工作未全面覆盖.[结论]基于大语言模型的问答技术在语义表示、复杂推理等多个方面均取得显著进展,融合外部知识的检索增强生成技术与提示工程技术是当前大语言模型领域的主要研究热点,未来研究工作可在生成内容可控、可信等方面展开深入探索.

    大语言模型问答技术向量检索提示工程

    融合情感-主题双通道信息的评论摘要生成模型

    李红莲陈浩天张乐吕学强...
    30-43页
    查看更多>>摘要:[目的]针对传统的自动摘要无法深度融合评论的情感和主题信息,无法解决词汇不足的问题,提出一种融合情感-主题双通道信息的评论摘要生成模型.[方法]运用TextRank动态抽取评论主题句,借助PyABSA模型抽取主题句中的方面词-情感词序列拼接主题句得到最终的主题信息,并通过构建情感词集和融合主题的Bi-LSTM情感词抽取模型获取情感句,将评论原文和情感句进行拼接,与主题句形成双通道信息,分别采用注意力机制得到主题注意力和情感注意力,并将其叠加进行深度融合得到融合注意力,替换指针生成网络的单通道注意力,通过指针网络生成最终的评论摘要.[结果]所提融合双通道信息的指针生成网络与对比实验主题+PNG相比,在ROUGE-1、ROUGE-2和ROUGE-L值上分别提升2.87、6.14和2.64百分点,消融实验结果表明融合双通道信息比单通道信息在ROUGE-1、ROUGE-2和ROUGE-L上分别提升4.49、3.66和4.16百分点.[局限]未考虑到融合更细粒度的属性.[结论]所提模型能够有效融合评论的主题信息和情感信息,提升双通道信息融合的质量,在摘要生成结果中优于对比模型,生成的摘要能够包含更多的情感和主题信息.

    评论摘要双通道注意力机制指针生成网络

    基于深度主动学习的科技文献摘要结构功能识别研究

    毛进陈子洋
    44-55页
    查看更多>>摘要:[目的]探究不同深度主动学习方法对科技文献摘要的结构功能识别效果和标注成本.[方法]提出基于主动学习和序列标注的科技文献摘要结构功能识别方法,构建考虑句间上下文序列信息的SciBERT-BiLSTM-CRF模型(SBCA),然后分别提出基于摘要单句和摘要全文两个维度的基于不确定性的主动学习策略,并在PubMed 20K数据集上进行实验.[结果]SBCA模型具有最佳的识别效果,与不考虑序列信息仅使用SciBERT模型相比,F1值提升了11.93个百分点.使用基于整篇摘要的最小置信度策略达到SBCA模型的最优F1值仅需使用60%数据,使用基于单句的最小置信度策略达到SBCA模型的最优F1值仅需使用65%数据.[局限]本研究中仅构建了基于不确定性的主动学习查询策略,未考虑构建其他类别的查询策略.[结论]基于深度主动学习的方法有助于在更低注释成本的前提下进行摘要结构功能识别.

    深度学习文献结构功能识别语步主动学习知识组织

    LingAlign:基于跨语言句向量的多语种句对齐方法研究

    刘磊梁茂成
    56-68页
    查看更多>>摘要:[目的]实现多语种句子的自动对齐,为基于平行语料库的数字人文和机器翻译研究提供支持.[方法]采用跨语言句向量技术,将待对齐的双语文本映射到一个共享的向量空间,基于双轮动态规划和改进版余弦相似度算法抽取双语文本中的平行句对.[结果]通过直接评测和间接评测两种方式评估系统性能:直接评测的平均准确率、召回率和F1值分别为0.950、0.960和0.955;间接评测的chrF、chrF++和COMET值分别为55.65、55.85和87.31.[局限]融合文档对齐和句子对齐的语料采集平台有待开发.[结论]所提方法在两类评测任务中的性能均优于现有方法,有助于构建大规模、高质量的多语种平行语料库.

    跨语言句向量自动句对齐神经机器翻译

    研究人员构建出效果更好的讽刺检测器

    68页

    基于有监督对比学习的文本情感语义优化方法研究

    熊曙初李轩吴佳妮周赵宏...
    69-81页
    查看更多>>摘要:[目的]解决因中文独特表达与词义变迁现象导致的文本特征抽取偏移与模糊语义分离困难等问题.[方法]提出一种有监督对比学习语义优化方法.首先使用预训练模型生成语义向量;其次设计有监督联合自监督方法构造对比样本对;最后构建有监督对比损失进行语义空间度量与优化.[结果]在ChnSentiCorp数据集上,经所提方法优化后的5种主流神经网络模型Fl值分别实现了2.77~3.82个百分点的提升.[局限]受限于硬件资源,未构建数量更大的对比学习样本对.[结论]语义优化方法可以有效解决特征抽取偏移与模糊语义分离困难等问题,为文本情感分析任务提供新的研究思路.

    文本情感分析有监督学习对比学习表示学习语义空间优化

    融合用户传播倾向信息的超图网络谣言检测模型

    彭竞杰顾益军张岚泽
    82-94页
    查看更多>>摘要:[目的]构造融合用户传播倾向信息的推文交互超图谣言检测模型,提高谣言检测准确率.[方法]提出一种名为UPBI_HGRD的谣言检测模型.该模型在获取推文节点嵌入表示时融合了用户传播倾向信息,并根据用户ID构造超边,形成能够反映推文交互关系的超图.此外,提出推文节点-用户超边级多层双级多头注意力机制关注重要的推文关系,从而有效学习节点的嵌入表示,最后将其输入分类器中判断是否是谣言.[结果]在三个公开数据集上的实验结果表明,所提模型的准确率分别达到了94.57%、97.82%和94.76%,优于基线模型,并具有优秀的谣言早期检测性能,证明了模型的有效性.[局限]获取融合用户传播倾向信息的推文嵌入表示以及构建超图的过程有一定时间开销,未来将从提高模型的时间效率等方面开展进一步研究.[结论]UPBI_HGRD模型可以有效提高谣言检测的准确率,为网络谣言的识别提供了新思路.

    谣言检测节点嵌入用户传播倾向信息超图多层双级多头注意力机制

    一种融合知识图谱的图注意力神经网络谣言实时检测方法

    王根生朱奕李胜
    95-106页
    查看更多>>摘要:[目的]提高社交媒体中谣言实时检测的准确率,降低谣言传播危害.[方法]提出一种融合知识图谱的图注意力神经网络谣言实时检测方法.首先,通过知识蒸馏从外部知识图谱中获取文本内容的背景知识;其次,通过点互信息把文本和背景知识转化为加权图结构表示,利用一种考虑边权重的图注意力神经网络从加权图中学习文本的非连续语义特征;然后,通过预训练语言模型BERT学习文本的连续语义特征,利用嵌入方法把用户和内容统计特征转化为连续向量表示;最后,融合所有特征,输入全连接神经网络中进行谣言检测.[结果]在两个公开的社交媒体谣言数据集PHEME和WEIBO上的实验结果表明,所提方法的准确率分别达到了92.1%和84.0%,优于对比基线方法.[局限]所提方法没有融合帖子中可能附加的图片或视频信息,不能进行多模态融合的谣言检测.[结论]融合背景知识可以补充短文本的语义表示,融合用户和内容统计特征可以辅助文本语义特征作决策,提高检测的准确率.

    谣言实时检测图注意力神经网络知识图谱语义特征统计特征用户特征

    基于投票机制的社交网络影响力节点集识别算法

    赵欢徐桂琼
    107-118页
    查看更多>>摘要:[目的]为了降低社交网络中种子节点之间的影响重叠程度,提出基于投票机制的社交网络影响力节点集识别算法KSEVoteRank.[方法]综合考虑节点重要性和邻域信息,定义节点投票能力,设计投票分配策略,同时引入衰减因子折扣邻居的投票能力,最后基于投票得分迭代选出高影响力节点.[结果]实验结果表明,在大型社交网络Ca-AstroPh数据集中KSEVoteRank算法选出的影响力节点集的影响重叠程度比VoteRank算法降低约21%.[局限]在重复投票过程中,设置邻居的投票分配策略不变,可能导致一些误差.[结论]基于投票机制的KSEVoteRank算法能够分散性选取高影响力节点,实现较大范围的影响传播.

    社交网络影响最大化投票机制衰减因子