摘要
互联网的不断发展和普及,与之相应的网络攻击也在不断增加。网络攻击已经成为一种威胁人们财产、隐私、个人信息和国家安全的行为。它不仅会给企业、政府机构等组织造成损失,而且还会导致社会公共利益的影响和失衡。但是,在今天的网络环境,各种攻击行为不断更新,越来越多的网络攻击威胁到数据安全,传统的入侵检测系统受到了极大的挑战。 入侵检测是维护网络安全的重要技术,广泛被学者研究。在入侵检测领域中,数据通常具有较高的维度和复杂性。数据降维可以减少计算量、去除冗余信息、提高可视化展示效果和模型泛化能力。然而,数据不平衡导致了一个具有挑战性的问题,即正常数据远远多于攻击数据。数据的不平衡会导致决策边界的偏差,从而导致更高值攻击数据的分类错误。面对不平衡数据,如何使分类模型更有效地进行分类,称为不平衡学习问题。 本文研究完成的工作如下: (1)针对网络入侵检测数据维度过高、数据冗余、误报率高、检测率低等问题,本文首先提出一种CNN和GRU并行提取特征的方法,利用多头注意力机制将CNN和BiGRU提取的空间和时序特征进行融合,并使用门控循环单元模型进行训练,最后对其进行分类。进一步为了解决数据降维,采用改进堆叠稀疏去噪自编码器对模型进行优化,通过将反映属性特征关系的信息项作为惩罚项计入损失函数中,能够提高自编码网络在局部近似性和解码能力方面的表现。 (2)针对数据不平衡的问题,本文提出了一种名为KMSMOTE混合采样算法。该算法采用不同的采样策略来处理多数类样本和少数类样本。对于少数类样本,对SMOTE过采样算法进行了改进,按照不同的阈值分别对其中的决策边界样本和安全样本进行采样,对噪声类样本不进行处理,解决了过采样带来的一系列问题。在处理多数类样本时,采用了K-means聚类和比例随机采样的方式,以达到数据平衡的目的。 实验结果表明,本文提出的基于改进自动编码器相比于普通自动编码器具有更好的性能,并行处理数据的方式相比于串行的方式性能更好。通过KMSMOTE混合采样的方式改善了SMOTE算法带来的边界重叠和噪声问题。