摘要
恶意软件通过代码植入、混淆、重打包等方式进入人们的视野,其分析检测是当前研究以及安全产品开发的热点;机器学习以“效率高、速度快”的优势被广泛应用到检测领域,但其“高效性”让人们忽略了“安全性”。大量研究表明,机器学习易受到对抗攻击,攻击者利用模型提取特征的侧重点不同,使用对抗技术对恶意软件进行细微修改使软件恶意功能隐蔽,朝着载荷小、隐蔽性高的方向进化,误导检测模型错误分类。 恶意软件主要以二进制代码进行分析,论文从机器学习安全角度出发,针对恶意软件对抗样本展开研究,本文的主要工作如下: (1)针对当前恶意软件领域生成对抗样本面临的恶意功能消失、文件格式损坏以及可执行性差等挑战,本文模拟样本真实生成环境,采用黑盒攻击,设计了两种对抗样本生成模型Pa2AE和ASAE,以解决上述问题;同时使用可视化技术对生成对抗样本进行质量验证,保证恶意软件修改规模达到最小。 (2)提出了一种基于Pareto多目标遗传算法的对抗样本生成模型Pa2AE。首先,构建动作策略库实现对恶意软件的修改,其次根据问题定义设计适应度目标函数,旨在最大化恶意软件与对抗样本之间的相似度和最小化修改动作的数量;结合Pareto多目标遗传算法对样本进化,维持样本的多样性,生成过程中使用CuckooSandbox进行功能验证,最后在不同攻击模型和商业引擎上进行交叉验证,实验结果证实了模型的可迁移性以及规避效果。 (3)在解决对抗样本面临挑战的基础上,为减少功能验证导致的成本浪费,同时避免与分类器交互次数过多引起模型警惕,提出一种基于规避序列对抗网络的对抗样本生成模型ASAE。首先根据PE文件映射机制设计字节序列注入算法,保证样本可执行性,避免功能验证;其次利用字节序列的语义特征信息及长依赖性构建规避序列对抗网络模型进行规避序列特征学习,使用训练好的模型进行对抗样本生成,仅在最后使用生成样本对分类器检测模型进行单次攻击,实验表明ASAE模型在单次攻击的情况下仍取得较高的规避成功率,同时验证了模型的稳定性以及可迁移性。