摘要
赌博网站的识别难点除了本身特征多样、变化丰富外,还面临数据严重不平衡的挑战.数据严重不平衡会降低机器学习算法的性能,造成对少数类的识别率低.因此,需要针对该场景下适用的分类模型进行研究.为了解决上述问题,本文探究了数据层面方法、算法层面方法和集成方法这三类典型的不平衡数据分类问题改进策略在赌博网站识别问题上的性能表现.本文在3个实验数据集上进行了实验,结果表明,各类方法均能明显改善涉赌网站的识别性能,其中提升最大的是SMOTE-SVM,对小类的识别能力提升了38.82%,总体识别能力提升了20.07%.