计算机技术与发展2023,Vol.33Issue(2) :214-220.DOI:10.3969/j.issn.1673-629X.2023.02.032

基于伽马内核与加权K近邻的流量分类算法

Traffic Classification Algorithm Based on Gamma Kernel and Weighted K-Nearest Neighbors

徐魁 海洋 许艺凡 段靖海 孙炜策 陶军
计算机技术与发展2023,Vol.33Issue(2) :214-220.DOI:10.3969/j.issn.1673-629X.2023.02.032

基于伽马内核与加权K近邻的流量分类算法

Traffic Classification Algorithm Based on Gamma Kernel and Weighted K-Nearest Neighbors

徐魁 1海洋 1许艺凡 2段靖海 3孙炜策 2陶军2
扫码查看

作者信息

  • 1. 宝鸡市公安局通信处,陕西 宝鸡 721014
  • 2. 东南大学 网络空间安全学院,江苏 南京 211189;计算机网络和信息集成教育部重点实验室(东南大学) ,江苏 南京 211189
  • 3. 东南大学 网络空间安全学院,江苏 南京 211189
  • 折叠

摘要

K最近邻算法(KNN)是一种简单有效的分类方式.当数据集分布均衡,不同类别样本之间的差异显著时,KNN的分类效果一般较好.但实际中数据集通常不理想,网络流量往往呈现倾斜分布,存在样本之间差异不显著等问题.为了更好地权衡样本距离之间差异以及流量类别分布不均带来的模型准确率下降问题,提出了一种基于Gamma内核与加权KNN的流量分类算法,综合考虑了距离和流量分布对分类结果的影响.采用Gamma分布函数作为内核,对不同类别采用自信息进行加权.最后得到G-WKNN模型,并将该模型应用于CIC-IDS2017数据集.实验结果表明,在流量均衡的情况下,模型准确率稳定在0.91左右.在流量不均衡时,依旧具备良好的分类表现.对比其余几种改良的KNN算法,其分类准确率较高且模型稳定性好,对K值相对不敏感.同时G-WKNN模型对少数类别分类准确率的提升效果也较为显著.

关键词

K最近邻算法/Gamma分布/自信息/距离函数/网络流量分类

引用本文复制引用

基金项目

中国高校产学研创新基金-阿里云高校数字化创新专项(2021ALA03006)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量6
段落导航相关论文