面向不平衡数据的入侵检测方法研究

张俊杰¹

扫码查看

作者信息

1. 北京化工大学
折叠

摘要

近年来新型网络技术发展迅速，在网络新技术渗透到各个领域的过程中，随之产生的网络安全问题不容忽视，如何有效保障网络信息安全、实时抵御恶意网络攻击行为是时下的热点话题。设计并实现一款能够自发识别网络流量种类的入侵检测系统是过滤不良流量请求、消除网络安全隐患的重要防护手段。现有的入侵检测模型对攻击不频繁的恶意流量有着很高的漏报率，而这些很难被检测的恶意流量往往有着更强的攻击性，若未能进行及时的检测与拦截可能会给接收端造成难以预料的损害。基于以上网络安全背景，本文的研究目标是通过应用数据增强技术解决传统入侵检测模型的训练数据分布不平衡问题，提高测试阶段模型对少数类恶意流量的检测率。本文的主要研究内容以及实验成果如下：（1）探究基于深度学习模型的入侵检测技术，实验搭建三种传统的深度学习模型作为实验的分类器，分别在NSL-KDD入侵检测数据集上进行训练与五分类测试，并根据不同模型在测试集上的五分类混淆矩阵计算四项分类性能评价指标。实验结果显示，与多种机器学习算法相比，使用深度学习模型作为入侵检测分类器具有更加优秀的检测性能。（2）在现有过采样算法以及欠采样算法的基础上提出了一种BS-Tomek混合采样算法，该算法的主要功能是在随机线性插值假样本后能够进一步强化类别边界，提高生成样本的整体质量。本文设计并实现基于BS-Tomek-CNN-IDS模型的入侵检测实验，并与四组对照实验进行分类性能对比，实验结果表明本文提出的BS-Tomek混合采样算法不仅能够有效提高卷积入侵检测模型的检测准确率，而且可以使分类模型成功检测出更多的少数类测试流量。（3）使用传统生成对抗网络模型与基于Wasserstein距离相似性度量的WGAN模型分别进行三组深度学习入侵检测实验，实验除比较分类模型的性能指标外，还对生成样本质量进行评估。实验证明两种无监督数据生成模型都能够提高分类模型的检测准确率，且WGAN模型能够有效改善传统GAN模型的训练稳定性。（4）在比较使用不同数据生成模型利弊的基础上，本文从模型结构、工作流程、损失函数表达式三个方面对传统数据生成模型进行改进，提出了一种VAE-WGAN-GP数据增强模型，进一步解决入侵检测数据分布不平衡问题。与对照实验使用的其他数据生成模型相比，本文提出的模型能够生成质量更好的假样本，对应的分类模型总体检测准确率有小幅度提高，能够明显提升分类模型对少数类测试流量的检测召回率，可以将R2L类型攻击样本的检测召回率提高40%以上。

关键词

深度学习/入侵检测/数据增强技术/混合采样算法

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

赵英

学位年度

2022

学位授予单位

北京化工大学

语种

中文

中图分类号

段落导航