首页期刊导航|数据分析与知识发现
期刊信息/Journal information
数据分析与知识发现
数据分析与知识发现

张晓林

月刊

2096-3467

jishu@mail.las.ac.cn

010-82626611

100190

北京中关村北四环西路33号

数据分析与知识发现/Journal Data Analysis and Knowledge DiscoveryCSSCICHSSCDCSCD北大核心CSTPCD
查看更多>>本刊是中国科学院主管、中国科学院文献情报中心主办的学术性、计算机信息管理技术专业刊物,它集图书馆界、情报界、各种现代技术的应用和情报信息服务工作导向于一身,面向情报信息界、图书馆界和档案界,技术导向强、信息量大、内容丰富,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类中文核心期刊,并被中国科学院授予“优秀期刊”。
正式出版
收录年代

    一种全面的少标签样本情形下的知识蒸馏方法

    刘彤任欣儒尹金辉倪维健...
    104-113页
    查看更多>>摘要:[目的]针对在自然语言处理中有标签样本稀缺和高性能的大规模参数量模型训练成本高的问题,本文在有标签样本不足情况下,通过知识蒸馏方法,提升在高性能大参数量模型指导下的小参数量模型性能.[方法]通过噪声提纯方法,从无标签数据中获取有价值的数据并赋予其伪标签,增加有标签样本数量;并在传统蒸馏模型基础上增加知识回顾机制和助教模型,实现从大参数量模型到小参数量模型的全面的知识迁移.[结果]在IMDB、AG_NEWS、Yahoo! Answers数据集的文本分类和情感分析任务上,使用原数据集规模的5%作为有标签数据,准确率表现与使用全部数据训练的传统蒸馏模型分别仅相差1.45%、2.75%、7.28%.[局限]仅针对自然语言处理中的文本分类以及情感分析任务进行实验研究,后续可进一步扩大任务覆盖面.[结论]本文所提方法在少量有标签样本的情形下,实现了较好的蒸馏效果,使得小参数量模型的性能得到显著提升.

    知识蒸馏半监督学习少标签样本文本分类

    新统计工具帮助临床试验使用更少的患者数据获得更好的结果

    113页

    融合实体信息的古汉语关系分类研究

    唐雪梅苏祺王军
    114-124页
    查看更多>>摘要:[目的]将实体信息与预训练语言模型结合应用到古汉语关系分类任务中,构建古汉语关系分类模型.[方法]首先,在预训练模型输入层中使用特殊标记标出实体对的位置,同时在原关系句之后拼接实体类型描述句;其次,在预练语言模型的输出中进一步提取实体语义信息;然后,通过CNN将每个字符相对于首尾实体的位置信息融入模型中;最后,将句表示、实体语义表示以及CNN输出拼接经过分类器得到关系标签.[结果]相较于仅使用预训练语言模型,本文模型在MacroF1指标上平均有3.5个百分点的提升.[局限]通过分析混淆矩阵发现本文模型在有相同实体类型组合的关系上容易出现预测错误.[结论]在预训练语言模型中结合实体信息能够提高古汉语关系分类的效果,且实验结果证明本文融合实体信息的方法是有效的.

    古汉语关系抽取关系分类预训练语言模型实体信息

    基于ERNIE和DPCNN的科技文献摘要结构要素识别

    胡忠义税典程吴江
    125-134页
    查看更多>>摘要:[目的]构建一种高效的科技文献摘要结构要素识别模型,实现对一段式摘要的结构要素识别.[方法]以知识增强语义表示模型(ERNIE)对科技文献的摘要文本进行表征,通过深度金字塔卷积神经网络(DPCNN)进行文本特征抽取,构建科技文献摘要结构要素识别模型.[结果]所构建的模型在图书情报领域数据集上识别文献摘要结构要素的精确率、召回率、F1宏平均值均高于0.95,比基准模型具有更好的识别性能.[局限]使用的语料具有一定的领域倾向,模型的领域通用性还有待验证.[结论]构建的模型可以更好地对文本特征进行抽取,有效提升了科技文献摘要结构要素的识别性能.

    摘要结构要素识别文本表征ERNIEDPCNN

    稀疏样本下长术语的抽取方法

    吕学强杨雨婷肖刚李育贤...
    135-145页
    查看更多>>摘要:[目的]为解决武器装备领域样本稀疏和长术语难以识别的问题,提出头尾指针和主动学习相结合的方法.[方法]首先,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样本上筛选高质量样本不断迭代训练模型,降低模型对数据规模的依赖.[结果]模型针对长术语的抽取效果在F1值上有0.50个百分点的提升,通过引入主动学习后采样,仅大约50%高质量数据即可达到训练100%训练数据相同的F1值.[局限]限于计算能力,本文数据集规模较小;在文本处理阶段新增主动学习采样策略,进行大规模数据计算的时间成本较高.[结论]利用头尾指针和主动学习方法能够有效抽取长术语,同时降低数据标注的成本.

    术语抽取主动学习头尾指针网络BERT武器装备

    基于SpERT-Aggcn模型的专利知识图谱构建研究

    何玉张晓冬郑鑫
    146-156页
    查看更多>>摘要:[目的]针对知识图谱构建中识别嵌套实体以及提升关系抽取精度的问题,提出信息抽取模型SpERT-Aggcn,并构建绿色合作专利知识图谱.[方法]基于SpERT-Aggcn模型抽取专利摘要文本中的嵌套实体和关系,采用Protégé构建本体并根据所构建本体实现三元组的映射.[结果]在关系抽取任务上,SpERT-Aggcn比SpERT模型的Fl值高2.61个百分点,其中长距离关系抽取Fl值高4.42个百分点;构建的绿色合作专利知识图谱包含699 517个实体、3 241 805条关系.[局限]SpERT-Aggcn模型的短距离关系Fl值低于SpERT模型,说明本文模型对于短距离关系的识别能力较差.[结论]通过基于跨度的实体识别模型以及引入依存文法信息的关系抽取模型,构建的知识图谱完整度更高.

    绿色合作专利知识图谱图卷积网络信息抽取

    ChatGPT如何在自然灾害期间帮助急救人员

    156页