计算机研究与发展2021,Vol.58Issue(8) :1751-1760.DOI:10.7544/issn1000-1239.2021.20210323

基于孪生BERT网络的科技文献类目映射

Siamese BERT-Networks Based Classification Mapping of Scientific and Technological Literature

何贤敏 李茂西 何彦青
计算机研究与发展2021,Vol.58Issue(8) :1751-1760.DOI:10.7544/issn1000-1239.2021.20210323

基于孪生BERT网络的科技文献类目映射

Siamese BERT-Networks Based Classification Mapping of Scientific and Technological Literature

何贤敏 1李茂西 1何彦青2
扫码查看

作者信息

  • 1. 江西师范大学计算机信息工程学院 南昌 330022
  • 2. 中国科学技术信息研究所 北京 100038
  • 折叠

摘要

国际专利分类法(international patent classification,IPC)和中国图书馆分类法(Chinese library classification,CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对实现专利信息、期刊资源交叉浏览和检索有着重要的意义.提出了基于BERT预训练上下文语言模型的孪生网络用于建立IPC类目和CLC类目之间的映射关系,利用孪生网络模型分别抽象这2个分类法类目描述文本,通过平均池化抽象后的向量表示计算得到它们相同维度的甸子向量,基于余弦相似度计算句子之间的相似度得分,完成类目映射.在人工标注一定规模的IPC类目和CLC类目之间的映射语料库上进行实验验证,结果表明提出的方法显著优于基于规则的方法和Sia-Multi,Bi-TextCNN,Bi-LSTM等深度神经网络的方法.相关的代码、模型和人工标注语料库已经公开发布.

关键词

国际专利分类法/中国图书馆分类法/基于孪生BERT网络/类目映射/对比损失

引用本文复制引用

基金项目

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量3
参考文献量9
段落导航相关论文