计算机技术与发展2020,Vol.30Issue(8) :124-128.DOI:10.3969/j.issn.1673-629X.2020.08.021

基于Word2vec的克隆代码检测方法研究

Research on Clone Code Detection Method Based on Word2 vec

贾清 杨抒
计算机技术与发展2020,Vol.30Issue(8) :124-128.DOI:10.3969/j.issn.1673-629X.2020.08.021

基于Word2vec的克隆代码检测方法研究

Research on Clone Code Detection Method Based on Word2 vec

贾清 1杨抒1
扫码查看

作者信息

  • 1. 新疆农业大学 计算机与信息工程学院,新疆 乌鲁木齐 830052
  • 折叠

摘要

系统中的克隆代码会增加程序员理解代码、修改代码的时间,并且在代码中一处克隆代码出现错误可能会导致系统中多个相同代位置的代码出现错误,大大增大了程序员进行软件维护的成本.为了找到系统文件中的克隆代码,利用基于Word2vec的克隆代码检测方法,针对新疆马业电商平台中的代码进行克隆检测.通过对系统源代码进行数据清洗,去除不需要的字符;Word2vec模型是一群浅并且双层的神经网络,选择Word2vec中的skip-gram模型进行训练并且构造词向量.训练完成后,模型可用来映射每个词到一个向量,用来表示词对词之间的关系.最后通过夹角余弦的方法来计算代码相似度,从而自动检测代码中的克隆代码.研究结果表明:基于Word2vec的克隆代码检测方法可以很好地检测出代码文件中的克隆代码,并且以指定的方式进行输出.

关键词

Word2vec/克隆代码/自动检测/相似度/软件维护

引用本文复制引用

基金项目

新疆维吾尔自治区重大科技专项(2017A01002-5)

新疆农业大学博士后科研流动站资助()

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量2
参考文献量6
段落导航相关论文