摘要
软件缺陷倾向性预测是提高软件测试效率、保证软件质量的重要手段之一,类不平衡是软件缺陷数据集中固有的问题.利用公开的NASA软件缺陷数据仓库中的部分数据集,分别采用随机过采样、人工少数类过采样法(synthetic minority over⁃sampling technique,SMOTE)、改进的SMOTE过采样算法处理类不平衡问题,然后使用随机森林预测模型对各软件模块的缺陷倾向性进行预测,最后利用查准率、召回率、AUC等性能评价指标对比不同采样方法处理缺陷数据集类不平衡问题的效果.
基金项目
广州华商学院青年学术类科研项目(2021)(2021HSQX50)