计算机科学2021,Vol.48Issue(10) :286-293.DOI:10.11896/jsjkx.200900185

基于神经网络的二进制函数相似性检测技术

Neural Network-based Binary Function Similarity Detection

方磊 魏强 武泽慧 杜江 张兴明
计算机科学2021,Vol.48Issue(10) :286-293.DOI:10.11896/jsjkx.200900185

基于神经网络的二进制函数相似性检测技术

Neural Network-based Binary Function Similarity Detection

方磊 1魏强 1武泽慧 1杜江 1张兴明2
扫码查看

作者信息

  • 1. 信息工程大学数学工程与先进计算国家重点实验室 郑州450001
  • 2. 之江实验室 杭州 310001
  • 折叠

摘要

二进制代码相似性检测在程序的追踪溯源和安全审计中都有着广泛而重要的应用.近年来,神经网络技术被应用于二进制代码相似性检测,突破了传统检测技术在大规模检测任务中遇到的性能瓶颈,因此基于神经网络嵌入的代码相似性检测技术逐渐成为热门研究.文中提出了一种基于神经网络的二进制函数相似性检测技术,该技术首先利用统一的中间表示来消除不同汇编代码在指令架构上的差异;其次在程序基本块级别,利用自然语言处理的词嵌入模型来学习中间表示代码,以获得基本块语义嵌入;然后在函数级别,利用改进的图神经网络模型来学习函数的控制流信息,同时兼顾基本块的语义,获得最终的函数嵌入;最后通过计算两个函数嵌入向量间的余弦距离来度量函数间的相似性.文中实现了一个基于该技术的原型系统,实验表明该技术的程序代码表征学习过程能够避免人为偏见的引入,改进的图神经网络更适合学习函数的控制流信息,系统的可扩展性和检测的准确率较现有方案都得到了提升.

关键词

二进制函数/相似性检测/表征学习/图神经网络

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量2
参考文献量27
段落导航相关论文