首页|一种基于论文画像的科技文献数据去重算法

一种基于论文画像的科技文献数据去重算法

扫码查看
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一.在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战.为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法.该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据.实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上.
A Data Deduplication Algorithm for Scientific Literature Based on Paper Portrait

白文磊、常丽琼、郭军、刘宝英、甘大广

展开 >

西北大学 信息科学与技术学院,陕西 西安 710127

西北大学 京东人工智能与物联网联合研究院,陕西 西安 710127

万方数据有限公司,北京 100038

论文画像 数据清洗 数据去重 词频-逆文档频率 词向量

国家重点研发计划

2017YFB1400301

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(8)
  • 1
  • 1