首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    基于文本图表征的中文隐式情感分析模型

    李嘉伟张顺香李书羽段文杰...
    1-10页
    查看更多>>摘要:[目的]为充分利用外部知识和上下文增强隐式情感文本,实现词级别的语义交互,本文提出一种基于文本图表征的中文隐式情感分析模型.[方法]首先,将目标句和上下文建模为以词为节点的文本图;然后,针对图中的词节点,通过外部知识链接得到语义拓展的文本图;最后,将所得文本图通过图注意力网络在节点间传递语义信息,再由Readout操作得到文本图表征.[结果]在公开的隐式情感分析数据集SMP2019-ECISA上进行模型评估,该模型F1值达到78.8%,较已有模型至少提高1.2个百分点.[局限]生成的文本图大小与文本长度相关,处理长文本时会导致较大的内存和计算开销.[结论]本文模型利用图结构从词级别建模外部知识、上下文和目标句的关联,可以有效地表征文本语义,提高隐式情感分析的准确率.

    隐式情感分析文本图表征图注意力网络

    基于文图音融合的多模态情感识别研究

    李慧庞经纬
    11-21页
    查看更多>>摘要:[目的]为有效利用含音视频的信息,充分捕捉文本、图像、音频之间的交互作用,提出基于STFT-CNN的音频特征提取方法与融合文图音的多模态网民情感识别模型TIsA.[方法]首先,将视频数据拆分为音频数据和图像数据;其次,利用BERT和BiLSTM获取文本特征表示,通过STFT将音频时域信号频域化并采用CNN提取音频特征和图像特征;最后,将三种模态特征进行融合.[结果]采集新浪微博平台"9·5四川泸定地震"舆情数据进行实证,本文提出的TIsA模型的准确率、宏平均召回率和宏平均F1值分别达到96.10%、96.20%和96.10%,较相关基线模型效果更优.[局限]未探究不同融合策略对情感识别结果的深层影响.[结论]本文提出的网民情感识别模型在处理含音频视频的多模态信息时表现出较高准确率,能够更好地判断网民情感,为网络舆情分析提供有效支撑.

    情感识别多模态深度学习网络舆情网民情感

    多模态协同对比学习的方面级情感分析模型

    余本功邢钰张书文
    22-32页
    查看更多>>摘要:[目的]为充分提取各模态特征,实现多模态特征的对齐与融合以及下游任务的设计,提出一种多模态协同对比学习的方面级情感分析模型MCCL-ABSA.[方法]在文本侧利用方面词与句子中方面词编码的相似性,在图像侧利用图像经过随机裁剪后在不同顺序下编码的相似性,分别构造对比学习所需的正负样本;设计对比学习任务的损失函数,学习到更具区分度的特征表示;最后充分融合文本特征和图像特征,进行多模态方面级情感分析,同时联合对比学习任务,动态微调编码器.[结果]在数据集TWITTER-2015上,较基线模型的最高准确率和F1值分别提高0.82和2.56个百分点;在数据集TWITTER-2017上,较基线模型的最高准确率和F1值分别提高0.82和0.25个百分点.[局限]未验证模型在其他数据集上的泛化性.[结论]本文模型能够有效改善特征提取的质量,以简洁高效的下游结构实现特征融合,提升多模态情感分类的效果.

    多模态方面级情感分析对比学习

    基于专利竞争力指数和Doc-LDA主题模型的关键核心技术识别研究——以新能源汽车为例

    滕飞张奇曲建升李海英...
    33-46页
    查看更多>>摘要:[目的]运用大数据分析方法识别关键核心技术,提高识别结果的准确性,为未来技术创新和大规模应用提供精准的数据支持.[方法]在界定关键核心技术概念的基础上,提出一种基于专利竞争力指数和Doc-LDA主题模型的关键核心技术识别方法,使用主题强度、主题共现强度和有效凝聚约束系数判别关键核心技术主题.[结果]以新能源汽车为例进行实证研究,共识别出燃料电池、固态动力电池、高效高密度电机驱动系统、塑料及复合材料轻量化、蜂窝通信、机电耦合一体化、变速器多档化、车用操作、智能控制、自动驾驶10项关键核心技术,并进一步进行趋势分析.[局限]由于主题粒度的细化程度有限,一些潜在的微观机制尚未被充分揭示.[结论]通过运用专利竞争力指数和Doc-LDA主题模型,全面评估技术的市场价值和竞争优势,从而提升了对技术发展趋势的预测精度.

    新能源汽车专利竞争力指数Doc-LDA主题模型社会网络分析关键核心技术

    基于知识增强的双Transformer网络的方面级情感分析模型

    谢珺高婧续欣莹郝戍峰...
    47-58页
    查看更多>>摘要:[目的]为解决方面级情感分析中大多数图卷积神经网络模型构建句法依赖图时忽略情感知识和句法依赖图中依赖关系过多产生噪声、对长距离或不连贯单词建模时性能降低等问题,提出一种基于知识增强的双Transformer网络的方面级情感分析模型DTNKE.[方法]利用情感常识知识库SenticNet7中的情感得分改进句法依赖图并考虑对多种句法依赖关系类型分类降噪,使用双Transformer网络增强处理长距离词,同时改进句法依赖图增强语义特征的表示学习.[结果]在5个公开数据集上,DTNKE模型的F1值分别达到74.97%、76.13%、74.83%、68.01%、74.54%,与多种基准模型平均的 F1 值相比,分别提高了 3.85、5.22、3.48、6.80和7.49个百分点.[局限]由于数据集中存在一定比例的隐式情感句,本文模型无法学习到更准确的隐式情感特征,因此分析结果受限.[结论]本文模型融合情感常识知识和降噪后句法关系重构双Transformer网络,改善了方面级情感分析的效果.

    方面级情感分析句法依赖图情感常识知识降噪句法图双Transformer网络

    政民互动平台的公众满意度影响因素研究——基于领导信箱语料的分析

    杜佳磷王西子胡广伟
    59-71页
    查看更多>>摘要:[目的]为探究政民互动平台公众满意度的影响因素,本文构建公众满意度影响因素分析模型.[方法]利用领导信箱语料信息提取微观变量,结合宏观经济变量采用梯度提升决策树方法建立公众满意度分析模型,最后基于SHAP分析剔除影响较小的变量以进一步优化模型.[结果]本文构建的公众满意度分析模型在准确率、召回率、查全率、F1值4项性能指标上均优于对比模型;GDP增长率、PCDI增长率、CPI增长率、来信主题、来信类型和回应模式是影响领导信箱的公众满意度的重要特征.[局限]未探索更多影响因素及更广泛的"政府-公民"互动视角场景.[结论]本文模型优化了变量筛选过程,并对各特征变量如何影响公众对政府回应效果满意的程度、方向和方式进行可视化,为数据驱动行政决策提供了分析工具.

    公众满意度政民互动机器学习领导信箱

    基于ts2net模型的睡美人系数预测方法研究

    杨宁黄飞虎赵爽李杉...
    72-82页
    查看更多>>摘要:[目的]解决现有睡美人文献识别方法需要依赖长期引文曲线的问题,探索基于早期引文曲线的睡美人系数预测方法.[方法]本文提出基于ts2net模型的预测方法,将文献的引文曲线转化为NVG、HVG和QG三种复杂网络,提取每个网络平均度、平均路径长度、聚集系数、社团数量和模块度等5个特征,并基于机器学习模型构建预测方法.[结果]在Web of Science平台收集计算机领域89 681篇文献作为实验数据,结果表明,B系数与Bcp系数均与复杂网络特征具有相关性,结合机器学习模型构建的预测方法中,MLP与GBRT效果最好.MLP在Bcp系数预测上最优,误差为5.90%;GBRT在B系数预测上最优,误差为31.18%.[局限]对于引文频率波动较大、睡眠周期较长的文献,本文方法的预测准确性会下降.此外,预测得到睡美人系数仅是睡美人文献的可能性指标,需结合下游睡美人文献识别模型或任务做进一步判别.[结论]本文验证了将引文曲线转化为复杂网络,进而利用网络特征构建睡美人系数预测具有可行性.

    睡美人文献复杂网络预测方法机器学习

    基于改进扩散模型的电商营销文本的自动生成研究

    胡忠义秦维吴江
    83-90页
    查看更多>>摘要:[目的]拓展扩散模型在文本生成领域的应用,解决生成文本信息单一、存在冗余的问题.[方法]采用TextRank算法提取原文本中的关键词信息,并将其融入序列扩散模型DiffuSeq,构建融合关键词信息的序列扩散模型K-DiffuSeq.[结果]相较于基准模型,K-DiffuSeq模型生成的文本在困惑度指标上至少提升4.140%,ROUGE指标上至少提升32.692%,文本多样性指标上至少提升1.566%.[局限]仅考虑商品有关的文本语料,忽略了图片、视频等更丰富的多模态商品信息.[结论]融合关键词信息能够有效提升营销文本生成模型的性能,本研究验证了扩散模型在文本生成领域的应用潜力.

    文本生成扩散模型序列扩散模型关键词提取

    面向综述论文的语义情报内容挖掘方法研究

    胡懋地于倩倩钱力常志军...
    91-101页
    查看更多>>摘要:[目的]为充分挖掘综述论文的语义情报内容,提出相关情报要素体系及其挖掘任务的形式化定义,构建相应的信息抽取技术框架.[方法]针对综述论文专业性强、术语分布稀疏、标注难度大等问题,通过多任务学习实现跨任务标注数据的信息互补,并引入自监督学习实现未标注数据中潜在信息的挖掘利用.[结果]本文所提技术框架显著增强了各项任务的性能表现,尤其是在要素间关系识别任务中,准确率提高8.32个百分点.此外,通过自监督学习,整体F1值进一步提升约2个百分点.[局限]在信息抽取过程中,未考虑图片、表格等文本之外的数据.[结论]提出了综述论文语义情报内容挖掘的方法流程,并引入多任务学习和自监督学习技术,利用跨任务标注数据及未标注数据提升挖掘效果.

    信息抽取阅读理解多任务学习自监督学习

    融合部首信息的古汉语自动分词与词性标注一体化分析

    常博林袁义国李斌许智星...
    102-113页
    查看更多>>摘要:[目的]针对现有古汉语自动分词与词性标注技术存在的准确度不高、效率不高等问题,提出一种融合部首信息的古汉语自动分词与词性标注一体化模型.[方法]基于7万余条汉字及其部首的数据,构建部首向量表示模型Radical2Vector.并将Radical2Vector模型与古汉语文本表示模型SikuRoBERTa相结合,共同拼接BiLSTM-CRF模型作为实验的主体模型结构.同时,设计分词与词性双层标注方案,在《左传》数据集上进行自动分词与词性标注一体化实验.[结果]模型分词任务的F1值达到95.75%,词性标注任务的F1值达91.65%,相比基线模型分别提高8.71和13.88个百分点.[局限]仅融合了每个汉字的单个部首信息,未利用汉字的其他部件信息.[结论]本文成功融入汉字部首信息,有效提升了古汉语文本的表示效果.通过分词与词性标注的一体化方案,本文构建的模型在分词与词性标注任务上表现出色.

    自动分词自动词性标注古文信息处理