摘要
在开展数字强国、智慧中国的背景下,信息化产业成为了国家经济发展的支柱产业,但同时也带来了网络安全问题的挑战。不法分子利用网络攻击技术,肆意破坏和入侵,给个人、企业和国家造成了严重的损失和威胁。其中APT攻击技术是众多网络攻击技术中危害性极大、隐蔽性更强、持续时间更长的一类攻击。中国是APT攻击的长期受害者,APT攻击给我国的网络安全以及国防安全带来了巨大的挑战。 APT攻击具有高级性、高持续性、高威胁性等特点,导致现阶段APT攻击检测面临以下困难:(1)缺乏真实的APT攻击流量数据。APT攻击数据难以获取,使得APT攻击检测模型难以得到有效的训练和优化。(2)数据集不规范。当前对于APT攻击检测,仍使用多年前的入侵检测数据集,数据未能得到及时更新。(3)模型不完善。模型难以适应高维流量数据,目前大多数模型难以有效的对高维流量数据进行特征提取和建模,导致最终检测具有较高漏报率和误报率。针对以上关键问题,本文以APT攻击检测为研究背景,结合机器学习方法,其主要研究工作如下: (1)数据集构建。从多个源收集或捕获流量数据,添加具有APT真实攻击的流量数据,利用流量混合技术将其组合,构建名为APT-CC流量数据集,提高数据集多样性和复杂性。 (2)数据集优化。对数据进行深度分析,提出APT-CC数据集构建优化解决方案,采用过采样+欠采样混合方法解决流量数据不平衡问题,对数据集数据进行特征筛选和关联性分析。利用多种模型对数据集进行训练,检验数据集质量,并及时对数据集更新。 (3)模型优化。本文提出了一种新的变分自编码-高斯混合(VAE-GMM)APT攻击检测模型,该模型包括生成网络和估计网络两部分,生成网络以压缩降维为主要目的,估计网络利用高斯混合模型的思想进行参数更新,二者以联合训练、联合优化的方式,重新设计损失函数,帮助模型摆脱局部最优,提高泛化能力。对比试验表明:VAE-GMM算法在漏报率和误报率上均优于其他模型,与DAGMM模型相比,召回率提升了13%,精确率提升3%。