基于机器学习的APT攻击流量异常检测方法研究

吕广旭¹

扫码查看

作者信息

1. 防灾科技学院
折叠

摘要

在开展数字强国、智慧中国的背景下，信息化产业成为了国家经济发展的支柱产业，但同时也带来了网络安全问题的挑战。不法分子利用网络攻击技术，肆意破坏和入侵，给个人、企业和国家造成了严重的损失和威胁。其中APT攻击技术是众多网络攻击技术中危害性极大、隐蔽性更强、持续时间更长的一类攻击。中国是APT攻击的长期受害者，APT攻击给我国的网络安全以及国防安全带来了巨大的挑战。 APT攻击具有高级性、高持续性、高威胁性等特点，导致现阶段APT攻击检测面临以下困难：（1）缺乏真实的APT攻击流量数据。APT攻击数据难以获取，使得APT攻击检测模型难以得到有效的训练和优化。（2）数据集不规范。当前对于APT攻击检测，仍使用多年前的入侵检测数据集，数据未能得到及时更新。（3）模型不完善。模型难以适应高维流量数据，目前大多数模型难以有效的对高维流量数据进行特征提取和建模，导致最终检测具有较高漏报率和误报率。针对以上关键问题，本文以APT攻击检测为研究背景，结合机器学习方法，其主要研究工作如下：（1）数据集构建。从多个源收集或捕获流量数据，添加具有APT真实攻击的流量数据，利用流量混合技术将其组合，构建名为APT-CC流量数据集，提高数据集多样性和复杂性。（2）数据集优化。对数据进行深度分析，提出APT-CC数据集构建优化解决方案，采用过采样+欠采样混合方法解决流量数据不平衡问题，对数据集数据进行特征筛选和关联性分析。利用多种模型对数据集进行训练，检验数据集质量，并及时对数据集更新。（3）模型优化。本文提出了一种新的变分自编码-高斯混合（VAE-GMM）APT攻击检测模型，该模型包括生成网络和估计网络两部分，生成网络以压缩降维为主要目的，估计网络利用高斯混合模型的思想进行参数更新，二者以联合训练、联合优化的方式，重新设计损失函数，帮助模型摆脱局部最优，提高泛化能力。对比试验表明：VAE-GMM算法在漏报率和误报率上均优于其他模型，与DAGMM模型相比，召回率提升了13%，精确率提升3%。

关键词

机器学习/流量数据处理/异常检测

引用本文复制引用

授予学位

硕士

学科专业

资源与环境

导师

王小英/高焕芝

学位年度

2023

学位授予单位

防灾科技学院

语种

中文

中图分类号

段落导航