摘要
K最近邻算法(KNN)是一种简单有效的分类方式.当数据集分布均衡,不同类别样本之间的差异显著时,KNN的分类效果一般较好.但实际中数据集通常不理想,网络流量往往呈现倾斜分布,存在样本之间差异不显著等问题.为了更好地权衡样本距离之间差异以及流量类别分布不均带来的模型准确率下降问题,提出了一种基于Gamma内核与加权KNN的流量分类算法,综合考虑了距离和流量分布对分类结果的影响.采用Gamma分布函数作为内核,对不同类别采用自信息进行加权.最后得到G-WKNN模型,并将该模型应用于CIC-IDS2017数据集.实验结果表明,在流量均衡的情况下,模型准确率稳定在0.91左右.在流量不均衡时,依旧具备良好的分类表现.对比其余几种改良的KNN算法,其分类准确率较高且模型稳定性好,对K值相对不敏感.同时G-WKNN模型对少数类别分类准确率的提升效果也较为显著.
基金项目
中国高校产学研创新基金-阿里云高校数字化创新专项(2021ALA03006)