首页|基于分层深度语义的科研项目文本相似度度量方法

基于分层深度语义的科研项目文本相似度度量方法

扫码查看
科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训练模型RoBERTa-WWM提取语句的语义特征,提出Whitening的标准化方法,并建立项目文本的分层深度语义相似度度量方法。我们提出的项目文本分层语义相似度包含三层:语句之间的相似度,章节之间的相似度,以及项目文本之间的相似度。论文在蚂蚁金融语义相似度AFQMC数据集和电力行业科研项目文本上进行了对比实验,验证了该基于分层深度语义的相似度度量方法明显优于基于字符串距离和TF-IDF的相似度度量方法。
Text Similarity Measurement Method of Scientific Research Projects Based on Hierarchical Depth Semantics
The article check of research projects is a very important issue in the academic field,and text similarity measure-ment is a key step in the article check.The current text similarity measurement methods of research projects are mainly based on string comparison or the TF-IDF method,which do not take into account the semantic features of the text.This manuscript proposes a hierarchical semantic similarity measurement method for the article of electric power technology projects.This method uses the pre-model RoBERTa-WWM and Whitening to extract the semantic features of sentences,and establishes the hierarchical deep se-mantic similarity of the item texts through cosine similarity.Three levels of hierarchical semantic similarity include similarity be-tween sentences,similarity between chapters,and similarity between articles.This paper shows the effectiveness of the Whitening method on the AFQMC data set,and verifies that our method is superior to the similarity based on string distance and TF-IDF on 50 power technology project articles and corresponding translated articles.

text similaritynatural language processingscientific research projects

杨政、方正云、李天骄、李丽敏

展开 >

云南电网有限责任公司电力科学研究院信息情报研究所 昆明 650217

云南电网有限责任公司 云南 昆明 650214

西安交通大学数学与统计学院 西安 710049

文本相似度 自然语言处理 科研项目查重

国家自然科学基金面上项目

61976173

2024

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2024.52(3)
  • 22