首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    英俄语虚假新闻共性计量特征挖掘与跨语言聚类研究

    原伟刘海涛
    1-13页
    查看更多>>摘要:[目的]挖掘不同语言虚假新闻的共性特征,为跨语言虚假新闻检测提供参考.[方法]以英语和俄语为例建立数据集,挖掘不同语言虚假新闻在词、句、可读性和情感层面的共性计量特征,将其用于主成分分析、K-means聚类、层次聚类和二阶聚类实验.[结果]34个共性计量特征用于真假新闻跨语言聚类效果良好,提出的19个新计量特征发挥了更大作用;发现虚假新闻有语言简化和经济化的趋势,倾向于使用短句和简单搭配传达信息,文本更易理解且包含负面表达更少.[局限]由于当前数据集限制,未能找到同一主题的真假新闻样本进行平行测试.[结论]不同语言的虚假新闻的确存在同语种无关的共性特征可用于自动聚类,为跨语言虚假新闻检测和甄别研究提供了借鉴.

    虚假新闻计量分析聚类

    基于深度金字塔卷积神经网络的ChatGPT生成文本检测方法

    范志武姚金良
    14-22页
    查看更多>>摘要:[目的]为了防止ChatGPT被滥用,本文研究了一种中文情景下的ChatGPT生成文本(AI生成文本)检测方法.[方法]采用Prompt提示的方式,构建三个不同种类的中文数据集.在这三个数据集上进行模型训练和测试,并从模型类型、文本类型和文本长度等维度,找到一种最优的AI生成文本检测方法.[结果]首先,通过多种方法对比,基于深度金字塔卷积神经网络的文本分类方法在测试集上准确率达到0.965 5,优于其他方法;其次,经过测试,DPCNN模型具备良好的跨类别能力;最后,不同的文本长度对于模型的准确率具有直接影响.[局限]以Prompt提示方式生成的中文数据集具有类别上的局限性,本文只构建了三种类别的数据集,并在此数据集上进行模型训练,然而现实中的文本类型是多样的.[结论]本文提出一种中文情景下的AI生成文本检测方法,其准确率受到文本类型和文本长度的影响.

    ChatGPT文本识别DPCNN跨类别

    基于本地大语言模型和提示工程的材料信息抽取方法研究

    时宗彬朱丽雅乐小虬
    23-31页
    查看更多>>摘要:[目的]从给定的专题研究论文中识别用于有机材料研发所需的实验材料信息,抽取已有研究中给体-受体体系下有机电池材料实体、类型实例.[方法]利用本地部署的大语言模型和提示工程,将信息抽取任务转化为无需微调的对话式抽取任务.通过在提示模板中添加少量示例并允许大语言模型给出否定回答的方式,识别相应的实例信息.[结果]在没有使用数据集进行微调的情况下,实现了材料实体和类型的抽取,其中实体识别的准确率为0.98,超过微调的方式,材料类型识别的准确率达到0.94.[局限]受本地计算资源的约束,本文降低了大语言模型的参数精度,对于长实体的识别性能偏低.[结论]采用低配本地化部署的基础大语言模型,通过构建合理的提示指令和人机协作模式,可以灵活、高效抽取所需主题下的实验信息.

    大语言模型提示工程信息抽取有机电池材料

    基于循环生成对抗网络和Wasserstein损失的谣言检测研究

    张洪志但志平董方敏高准...
    32-43页
    查看更多>>摘要:[目的]通过循环生成对抗网络和Wasserstein距离改进的生成损失,利用对抗训练提高谣言检测模型在数据样本不平衡、非配对情况下的稳定性和精确度.[方法]利用生成器和判别器之间的对抗训练实现谣言判别模型的增强.在生成训练过程中引入循环一致性损失和识别损失以实现生成目标的可控性,并使用Wasserstein距离改进模型生成损失,提高生成器的引导效果的同时避免对抗网络训练过程中可能出现的梯度爆炸的问题.[结果]在不平衡谣言数据集PHEME上,所提模型准确率达到0.869 8,F1值达到0.855 0,与基准模型相比,分别提高了 0.006 8和0.018 0.[局限]基于循环生成对抗网络的谣言检测模型只有两个生成器,因此只能实现两种类别样本的转换,只适用于二分类的谣言检测模型,对于多分类谣言检测任务则无法应用.[结论]使用Wasserstein距离改进生成损失的循环生成对抗网络可以有效提升谣言检测模型在数据不平衡情况下的谣言检测能力.

    谣言检测循环生成对抗网络Wasserstein损失

    面向多领域的词汇复杂度评估研究

    李纲黄建飞毛进
    44-55页
    查看更多>>摘要:[目的]探索集成不同语料库的方式,从而提升评估词汇复杂程度的综合表现.[方法]提出一种多领域词汇复杂度评估模型,通过特征泛化模块适应各种领域,在下游微调任务中学习词汇复杂度预测,通过特征融合模块探索手工特征与神经网络深度特征的组合意义.[结果]在LCP-2021数据集上,本文模型相较于公开的现有最优结果,Pearson系数、MAE、MSE指标分别提升0.014 8、0.001 7、0.000 4,Spearman系数和R2系数的表现则下降0.003 8、0.025 5;集成手工特征后没有明显变化;二次迁移到CWI-2018数据集,本文模型在三个领域上的MAE指标,相较公开的基线结果分别提升0.008 6、0.020 9、0.017 4.[局限]采用向量拼接集成手工特征和深度特征,未能充分融合不同类型特征;设计特征泛化模块时的算法选择具有一定局限性;可以进一步尝试构建综合数据集.[结论]集成不同语料库,有助于提升模型在新领域下的整体评估效果.

    多领域词汇复杂度领域泛化特征融合

    基于多任务联合学习的古代经典礼学文献礼俗专名自动识别方法研究

    斯日古楞林民郭振东张树钧...
    56-66页
    查看更多>>摘要:[目的]针对现有通用命名实体识别模型在古籍特定领域的局限性,提出一种多任务深度学习模型,专门用于多类型礼俗专名的自动识别,以提升古籍中复杂礼俗专名的识别精度和效率.[方法]首先构建包含6个类别的礼俗专名标注语料库,然后构建融合古文预训练语言模型的礼俗专名识别和自动标点一体化模型MJL-SikuRoBERTa-BiGRU-CRF.该模型利用SikuRoBERTa和BiGRU训练语料库并获取上下文语义信息,再由CRF层对两个子任务进行标签约束,生成全局最优的专名和标点标签序列.[结果]所提模型在礼俗专名识别任务上的F1值为84.34%,在自动标点任务上的F1值为75.30%.其中,在宫室、器物、服饰专名类别上效果显著,F1值达到85%以上;在饮食、车具、物产类别上表现稍显不足,F1值为76%~81%.[局限]模型未在更细粒度专名分类上进行验证.另外,本文尝试对专名识别方法进行数据增强,以提高礼俗专名识别效果,但并没有将其应用于所有类别.[结论]本文构建的一体化模型更适用于中国古代礼学文献的礼俗专名识别任务,可为古代礼仪信息抽取、知识库自动构建提供有效支持.

    专名识别古代礼学文献多任务学习古汉语预训练模型

    基于跨模态注意力和门控单元融合网络的多模态情感分析方法

    陈岩松张乐张雷瀚吕学强...
    67-76页
    查看更多>>摘要:[目的]针对当前多模态情感分析中模态融合与交互不充分、多模态特征提取不完全的问题,提出一种基于跨模态注意力和门控单元融合网络的多模态情感分析方法.[方法]在多模态特征提取方面,增加视频模态中人物微笑程度特征和人物头部姿势特征,丰富了多模态数据的底层特征;在模态融合方面,利用跨模态注意力机制使模态内部以及模态之间的信息进行更充分的交互,利用门控单元融合网络去除冗余信息,并通过自注意力机制分配注意力权重;最后,通过全连接层输出最终情感分类结果.[结果]在中文公开数据集CH-SIMS上与先进的Self-MM模型进行对比,实验结果表明,本文提出的方法在二分类准确率、三分类准确率和F1值上分别提升2.22、2.04和1.49个百分点.[局限]视频中人物的肢体动作在不断变化,不同的肢体动作蕴含不同的情感信息,模型没有考虑到人物在视频中的肢体动作信息.[结论]本文丰富了多模态数据的底层特征,有效实现模态融合,提升了情感分析的效果.

    多模态情感分析注意力机制门控机制特征融合

    基于深度多模态关联学习的短视频多标签分类研究

    李云卢志翔刘姝伊王粟...
    77-88页
    查看更多>>摘要:[目的]充分利用模态互补性,增强模态之间和模态与标签之间的相关性,实现高度准确的分类效果.[方法]提出一种基于多模态语义增强及图卷积网络的短视频多标签分类算法,利用短视频中的多模态信息进行多标签分类任务.[结果]算法分类精度达87.15%,比最优的基准算法提升了 6.82个百分点.[局限]模态融合增强信息存在冗余信息,这些冗余掩盖了模态之间的相关性;此外,基于多模态的多标签分类研究较为有限.[结论]本文算法能够提高模态之间的互补性,增强模态与类别之间的相关性,提高分类准确性.

    多模态融合语义增强图卷积网络短视频

    基于语义一致与多级相似性的跨模态哈希检索

    刘媛媛王晓燕张雨欣朱路...
    89-102页
    查看更多>>摘要:[目的]通过关联标签学习丰富的语义表示,在哈希码中保留更多辨别信息,同时考虑到跨模态语义相似性,保持不同模态间的相关性,更好地弥合模态差距.[方法]在多标签的关联约束下,挖掘不同模态的公共语义信息以及隐藏的类语义结构,采用高级语义与低级语义联合相似性度量的非对称学习框架,进而量化获得更具强鉴别性的哈希码.[结果]在MIRFlickr-25K、IAPR TC-12和NUS-WIDE三个多模态基准数据集上,本文方法与7种方法进行实验对比,在5种不同码长情况下,本文方法的平均MAP值比基准模型的最高值分别提升2.1%、5.8%和2.1%.[局限]所提出方法对多标签数据集更具适用性,对单标签数据的语义相关性挖掘尚有欠缺.[结论]所提方法保持样本和类语义结构的一致性,并且充分挖掘内在模态特征,有效提高了检索性能.

    跨模态检索监督学习多级相似哈希

    融合LGBM和SHAP的企业负面事件下微博用户极端情感可解释模型

    蒋建洪李梦欣
    103-117页
    查看更多>>摘要:[目的]提取用户外部刺激和认知评价指标,构建企业负面事件下微博用户极端情感影响因素模型,利用SHAP解释各特征变量的影响.[方法]基于认知情感理论、社会影响理论、情感评价模型、LDA模型、扎根理论确定外部刺激和认知评价指标,并将两类指标包含的特征变量作为输入,极端情感变量作为输出,构建极端情感影响因素模型.通过4个模型性能对比,将最优模型与SHAP模型融合进行可视化展示.[结果]认知评价维度提取出7个特征变量;LGBM模型的准确率、精确率、F1值分别达到0.88、0.90、0.93,优于其他对比模型;从特征变量对微博用户极端情感产生的影响程度来看,认知评价维度普遍高于外部刺激维度,且各特征变量的影响方式有所不同.[局限]需要探索更多影响因素及更广泛的企业负面事件类型,算法性能有待提高.[结论]本研究提出的模型优化了扎根编码过程,可视化各特征变量对极端情感的影响程度、影响方向、影响大小及影响方式,可以为企业解决网络口碑负面化的问题提供理论依据.

    企业负面事件LGBMSHAP扎根理论认知情感理论