基于知识图谱的科学论文语义聚合模型研究

扫码查看

原文链接

NETL

中文摘要：随着互联网存储技术发展，文献发表后被收集在数据库，各领域科学论文数量迅速增多，且分布广泛，文献的聚合度低，聚合关系可通过论文之间的关系体现，论文之间的关联可以又通过题目、主题、关键词、摘要等体现，而整篇论文对于计算机属于长文本，目前的自然语言处理技术还不能完全理解全文的意思。因此除了对关键词等短文本的研究，还可以对文献的摘要、段落进行研究，使计算机语言可以更加理解文献语义，针对摘要等长文本的研究还可以应用在文献查重、抄袭认定、评分等领域，具有一定的研究价值。本文认为通过对文本语义相似度的计算，可以量化这种关系，但摘要与短句相比，组成结构更加复杂，因此计算其相似度难度也更大。本文通过对已有方法的学习和研究，从摘要的语义向量表示和摘要文本的再生成两个方向利用算法计算摘要相似度。本文首先梳理了当前对文本语义相似度研究现状和不足，分析了国内外研究现状，并归纳对长文本语义研究的方法，讨论了从摘要入手解决问题的可行性。摘要由多个句子组成，句子的语义组合即代表摘要的语义，句子语义计算主要任务是语义抽取和余弦相似度。其次，根据分层构造语义的思路，本文采用双向长短记忆神经网络和深度卷积网络模型获取语义向量，计算语义向量间余弦值作为相似度评判标准。针对摘要的高维度问题，利用奇异值分解理论降维后再计算。最后，本文提出基于谷歌BERT模型的指针的生成式文本摘要模型。通过实验验证自动生成式摘要可表示原摘要语义，有效解决长文本高维度和上下文信息丢失问题。生成式摘要的准确率保证其可用于下一步实验，基于论文搜集平台获取的数据，采用医学领域科学论文为数据集，使用验证过的模型进行实验，并利用知识图谱技术进行可视化展示。通过实验本文发现使用语义相似度计算和知识图谱技术可以找到文献间的联系，本文通过使用“冠状病毒”论文数据进行实验，发现论文之间的高度相似性，是区别于关键词和题目名的相似，从摘要的语义角度，验证论文在方法、技术、过程、理论等相同，发现其引用关系，通过知识图谱可视化显示这种关系，再次通过相似度计算，验证借鉴关系，建立起从“非典”到“新冠”主题的论文的关系桥梁，可将方法、过程、技术相同的科学文献进行聚合。实验证明基于摘要的长文本相似度计算可以为论文查重、抄袭检测提供依据，从而使科学论文的利用程度达到最大化。

作者：

李忠

展开 >

关键词：

语义抽取语义相似度知识图谱科学论文语义聚合

授予学位：

硕士

学科专业：

计算机应用技术

导师：

马冯

学位年度：

2021

学位授予单位：

云南财经大学

语种：

中文

中图分类号：