计算机科学2021,Vol.48Issue(7) :62-69.DOI:10.11896/jsjkx.200600022

基于变分自编码器的不平衡样本异常流量检测

Detection of Abnormal Flow of Imbalanced Samples Based on Variational Autoencoder

张仁杰 陈伟 杭梦鑫 吴礼发
计算机科学2021,Vol.48Issue(7) :62-69.DOI:10.11896/jsjkx.200600022

基于变分自编码器的不平衡样本异常流量检测

Detection of Abnormal Flow of Imbalanced Samples Based on Variational Autoencoder

张仁杰 1陈伟 1杭梦鑫 1吴礼发1
扫码查看

作者信息

  • 1. 南京邮电大学计算机学院、软件学院、网络空间安全学院 南京 210023
  • 折叠

摘要

随着机器学习技术的快速发展,越来越多的机器学习算法被用于攻击流量的检测与分析,然而攻击流量往往只占网络流量中极小的一部分,在训练机器学习模型时存在训练集正负样本不平衡的问题,从而影响模型训练效果.针对不平衡样本问题,文中提出了一种基于变分自编码器的不平衡样本生成方法,其核心思想是在对少数样本进行扩充时,不是对全部进行扩充,而是分析这些少数样本,对其中最容易对机器学习产生混淆效果的少数边界样本进行扩充.首先,利用KNN算法筛选出少数类样本中与多数类样本最近的样本;其次,使用DBSCAN算法对KNN算法筛选出的部分样本进行聚类处理,生成一个或多个子簇;然后,设计变分自编码网络模型,对DBSCAN算法区分出的一个或多个子簇中的少数类样本进行学习扩充,并将扩充后的样本加入原有样本中用于构建新的训练集;最后,利用新构建的训练集来训练决策树分类器,从而实现异常流量的检测.选择召回率和F1分数作为评价指标,分别以原始样本、SMOTE生成样本、SMOTE改进方法生成样本和文中所提方法生成样本为训练集进行对比实验.实验结果表明,在4种异常类型中,采用所提算法构造训练集训练的决策树分类器在召回率和F1分数上都有提升,F1分数相比原始样本及SMOTE方法最高提升了20.9%.

关键词

异常流量/过采样/变分自编码器/不平衡样本/KNN/DBSCAN

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量3
参考文献量3
段落导航相关论文