首页|不平衡数据集下的数据中心网络流量异常检测研究

不平衡数据集下的数据中心网络流量异常检测研究

李冬青

不平衡数据集下的数据中心网络流量异常检测研究

李冬青1
扫码查看

作者信息

  • 1. 杭州电子科技大学
  • 折叠

摘要

数据中心作为信息化时代的重要基础设施,是信息系统及信息服务的基础载体,承载着政府部门、企业和个人的各类信息化业务,既有网络接入、数据分发等基础业务,也有计算、分析和存储等各类应用型服务。数据中心的正常运行不仅关系到信息系统的服务质量,更关系到国家的网络空间安全。目前,数据中心是网络攻击的主要攻击目标。数据中心遭受到的网络攻击居高不下,导致广大企业和用户的信息泄露,甚至会造成严重的经济损失,产生恶劣的社会影响。网络攻击往往呈现一定的异常网络流量特征。因此,及时、准确地识别网络流量异常,是检测网络攻击的重要措施。 通过部署数据中心网络流量异常检测分析系统,满足快速高效地识别网络攻击的需求,是数据中心运维人员必须采取的措施。数据中心网络有着拓扑环境复杂、流量特征众多和数据分布不平衡等特点。因此,在数据中心网络中,降低模型处理的开销以及提高流量检测的准确率,是异常流量检测的关键。 本文围绕如何快速准确地检测数据中心网络异常流量这一问题,对网络流量的特征选择、分布均衡和异常流量检测进行了研究。具体工作如下: (1)本文提出了一种面向流量异常检测的不平衡数据集分类方法。该方法首先基于特征工程筛选出能表示数据分布的关键特征子集,从而增加不平衡类别之间的区分度,并且减少分类算法对海量数据识别时的开销。然后采用基于聚类改进的混合采样算法在数据层面降低数据集的不平衡程度。混合采样算法不仅考虑了各种流量的分布,并且根据类别的样本数量自适应地采样,保留了数据集中更多的分布信息,进而获得更好的识别效果。在不同的公开数据集上,将本文提出的算法与其他研究工作的算法进行对比,实验结果表明本文提出的算法对于不平衡数据分类有较好的适用性,并且对少数类样本的识别效果有所提升。 (2)本文提出了一种基于随机森林和轻量级梯度提升机(LightGradientBoostingMachine,LightGBM)的流量异常检测方法。该方法首先使用随机森林多分类器和LightGBM二分类器进行预测,再将预测结果输入LightGBM多分类器中进行训练。该方法通过混合采样生成随机森林的训练子集,缓解随机森林在分类时对多数类的倾向问题,并且利用随机森林抗噪能力强的特性,减少LightGBM受噪点的影响,从而降低检测方法误报率并且提高异常识别率。在公开数据集上进行对比,实验结果证明了该模型在精确率和召回率等方面均比其他研究工作的相关模型更具优势。最后,结合上述本文提出的两个方法,设计并实现了基于Mininet的软件定义网络(SoftwareDefinedNetwork,SDN)的流量异常检测仿真系统,验证了本文算法的可行性。 网络流量的异常识别,是网络管理的重要部分。本文首先提出了基于特征工程和混合采样的不平衡流量异常数据的分类方法,以解决实际网络流量检测中异常数据集不足而造成检测精度低等问题。然后,本文提出了基于随机森林和LightGBM的流量异常检测机制,进一步提高异常流量检测性能。本文的工作可作为数据中心异常流量识别提供参考。对于提高数据中心安全,保证数据中心服务质量和可靠性,具有重要意义。

关键词

数据中心网络/网络流量/异常检测/不平衡数据集/集成学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

万健

学位年度

2022

学位授予单位

杭州电子科技大学

语种

中文

中图分类号

TP
段落导航相关论文