基于半监督学习的网络流量识别研究

张仕鹏¹

扫码查看

作者信息

1. 郑州大学
折叠

摘要

随着网络技术的发展和互联网的规模不断扩大，网络流量呈爆发式增长，给互联网的管理和维护带来了巨大的挑战和安全隐患。网络流量识别技术可以通过识别不同的类型的网络流量，来帮助解决互联网领域中不同业务场景下的问题。近年来，深度学习在网络流量识别中的应用成为研究热点，并取得一定的成效。但是现有的方法大多都是基于有监督学习实现的，即需要大量有标记的数据对模型进行训练。然而，由于网络流量具有数据量大、结构复杂的特性，对网络流量逐条标注成本较高，导致获取有标签数据的数量有限。少量的有标签数据会使模型的训练过拟合，导致识别的性能较低。半监督学习结合了有标签数据和无标签数据对模型进行训练，符合网络流量数据的特点。因此，本文围绕半监督学习的方法在网络流量识别中的应用，开展的研究如下: (1)对网络中的恶意流量识别提出了一个基于三体训练法的恶意流量识别方法，该方法旨在通过给无标签数据添加伪标签，来提升模型的分类性能。具体来说，将有标记的数据重采样为不同的子集并分别训练三个基分类器，然后使用训练完成的基分类器对无标签数据进行预测，给满足条件的数据添加伪标签。同时提出一种置信度的计算方法，将置信度大于阈值的伪标签数据加入到模型下一轮的训练中，有效提高了伪标签样本的质量，降低了噪声对模型训练的影响。在实验部分，使用CICIDS2017公开数据集。结果表明，该方法在只有少量有标签的数据时依然能达到较好的性能，并优于有监督学习的方法。同时与其他半监督方法作对比，该方法依然较有优势。 (2)对加密流量识别提出了一个基于平均教师的加密流量识别方法。由于网络流量经过加密处理后，得到的网络流量具有随机化的特点。因此该方法将原始的网络流量转化成灰度图的形式，利用二维卷积神经网络提取深层次的特征,并应用图像分类领域的方法对加密流量进行识别。使用平均教师的半监督学习方法，针对网络流量灰度图构建了残差神经网络模型作为教师和学生模型，将有标签和无标签的网络流量灰度图添加不同的随机噪声，经过教师和学生模型得到不同的输出，通过一致性损失函数来提升模型的健壮性。在实验部分使用ISCXVPN2016数据集，并设计相关实验验证方法的有效性。实验结果表明，该方法在只有少量有标签的加密流量时，在分类性能上优于有监督学习的方法，并且依然能够较好的识别出加密流量所属类型。

关键词

网络安全/半监督学习/恶意流量识别/加密流量识别/深度学习

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

李占波

学位年度

2023

学位授予单位

郑州大学

语种

中文

中图分类号

段落导航