首页|基于词嵌入的源码相似度研究

基于词嵌入的源码相似度研究

扫码查看
源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作.传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究.为解决此类问题,在词嵌入基础上提出结合TF-IDF和Word2vec的向量空间模型,利用向量间距离衡量代码间的相似性,融合代码的语义信息和统计信息.实验结果表明,相比于传统基于统计的方法,该模型效果提高了15%.
Research on Source Code Similarity Based on Word Embedding

钱程、谢春丽、王梦琦、权雷

展开 >

江苏师范大学智慧教育学院

江苏师范大学计算机科学与技术学院,江苏徐州221116

N-gram TF-IDF Word2Vec 词嵌入 代码相似度

61502212201910320134Y2e317703-2af0-4ecb-ba7c-35e290356017

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(7)
  • 1
  • 6