摘要
近年来,大量的研究致力于开发基于机器学习的网络入侵检测系统,这需要使用大量高质量的训练数据。然而,构建真实的网络流量数据集面临建立标记困难和用户隐私问题的挑战,公开可用的数据集存在高假阳性和部分数据集已经过时问题,因此产生大量真实的、有标记的流量数据是当前基于机器学习方法的网络安全研究广泛关注的问题。目前,大多数传统网络流量生成方法是基于统计模型,生成的流量数据集表示能力有限且不具备高保真性。同时,网络流量数据的类不平衡问题也会导致网络入侵检测系统性能下降,而当前的数据集依然存在异常流量占比过少且不同类别数量差异大等问题。 针对上述问题,本文重点研究基于生成对抗网络的网络流量生成方法,针对真实的、有标记的网络流量数据短缺问题,提出了一种基于WGAN-GP-LSTM的标记网络流量生成方法;针对网络流量数据中类不平衡问题,提出了一种基于C-WGAN-GP的异常流量生成方法。通过训练神经网络学习流量数据字段内和字段间依赖关系,以及序列中的长期依赖关系如时间相关性,进而生成大量高质量的有标记流量数据。本文的主要研究内容如下: (1)研究了网络流量生成技术与生成对抗网络模型的相关理论与算法。通过分析现有流量生成方法合成数据集的统计属性与真实生产网络的网络流量分布差异,揭示了流量生成过程中对数据属性字段内和字段间的相关性学习不足,以及数据中异常流量数据过少导致数据集类别不平衡等问题,为进一步研究基于生成对抗网络的网络流量生成方法和处理数据类不平衡方法奠定了基础。 (2)提出了一种基于生成对抗网络的标记流量生成方法,该方法使用原始生成对抗网络的衍生模型即带梯度惩罚的Wasserstein生成对抗网络(WGAN-GP),结合长短期记忆网络(LSTM)来设计生成器模块和鉴别器模块,通过对流量数据进行预处理、模型预训练、流量生成训练和数据评估等步骤,生成在分类标记、相似性和质量方面均得到提升的有标记的网络流量数据样本。 (3)提出了一种面向类不平衡的异常流量生成方法,该方法针对网络流量数据中异常流量数据占比少和不同异常流量类别数量差异大等问题,使用条件WGAN-GP设计基础网络架构,为了让网络能够针对类别信息完成进一步训练,方法在判别器模块外增加了一个卷积神经网络用于分类,然后将分类结果反馈给生成器模块从而进一步指导异常流量数据的生成,实现面向类别不平衡的异常流量数据样本生成。 (4)设计实现了一个基于生成对抗网络的网络流量生成系统。该系统能够实现数据处理、网络流量数据生成和数据评估功能。其中,数据处理模块使用当前流行的两个公开数据集UNSW-NB15和CIC-IDS2017,为后续生成模块实现数据预处理;网络流量数据生成模块使用基于生成对抗网络的模型架构,分别结合LSTM与CNN网络实现标记网络流的生成与面向类不平衡的异常流量生成方法;数据评估模块从内在质量、相似性和标记三方面对生成的数据结果进行分析验证。根据测试结果可知,该系统能够有效提高网络流量数据的生成质量。