面向软件缺陷预测的数据重采样和特征选择方法研究

范洪旗¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

随着时代的发展，科学技术也发展迅速，计算机技术也得到快速发展，各种各样的软件层出不穷。这些软件一方面提高了生产效率，另一方面也推动着技术的进一步发展。与此同时，软件规模也在日趋复杂和庞大，内部结构和模式越来越复杂，这对软件开发人员提出了更高更复杂的要求。在开发过程中，软件缺陷作为运行过程中出现的异常或错误会提高测试资源成本。这些软件缺陷会影响到软件模块的安全性和稳定性。及时准确地发现软件模块中的缺陷尤为重要。然而软件缺陷数据集往往存在以下问题，一方面,经过软件度量标记过，收集的软件缺陷数据呈现出类别不平衡的特点，也就是非缺陷模块数量往往远超缺陷模块。这对传统的预测模型提出了挑战;另一方面，缺陷数据是高维的，高维数据也会使得分类模型的精度受到影响。近年来，有许多研究提出了一系列的方法，来构建软件缺陷预测模型，但仍有一些问题需要解决。如用于解决缺陷数据中数据不平衡问题的数据采样方法存在的过度泛化问题，用于解决缺陷数据高维特征冗余问题的特征选择方法多样性和鲁棒性不足等问题。因此，本文从数据不平衡问题和特征冗余两类问题出发，围绕以上问题展开研究，具体内容如下: (1)对当前提出的用于解决数据类别不平衡问题的采样方法进行归纳梳理。针对当前基于(SyntheticMinorityOver-SamplingTechnique,SMOTE)的采样方法应用于缺陷数据集时可能会造成的过度泛化问题，提出了一种结合样本学习困难程度和样本合成泛化影响的过采样方法(GeneralizationandDifficulty-awareOversamplingTechnique,GDOS)。首先通过样本的局部先验概率和潜在合成方向上的样本分布信息衡量样本的安全系数与泛化系数，并以此度量样本的选择权重。其次，通过抑制潜在过泛化区域的样本合成概率，给予相对安全的近邻合成方向更高的选择概率，种子样本倾向于具有更高选择概率的合成方向进行样本合成，这为高质量样本的合成提供保障。在26个PROMISE数据集上的实验表明，GDOS在MCC、pd、pf、F-measure等指标上较于经典的采样方法和专门提出的软件缺陷预测采样方法均取得了更优的性能表现。 (2)对当前提出的用于解决高维数据特征冗余问题的特征选择方法进行归纳梳理。提出了一种基于相关性度量和PageRank的集成特征选择方法(FeatureSelectionviaRelevanceandPageRank,RPFS)。首先，RPFS利用一系列的特征相关性度量方式，计算相关性。其次，算法构建加权图，以特征为节点，以每个特征和数据集中的标签的相关性作为特征自身的权重，以不同特征之间的相关性作为不同特征节点之间边的权重。最后，在加权图上利用WeightPageRank算法对节点进行重要度排名，然后按照过滤式进行特征选取，保留最后的特征子集。经过AEEEM的5个数据集的实验证明，采用集成特征选择算法RPFS可以有效地展示特征之间的相关性，并且具有较高的多样性，在准确率和其他指标上，RPFS表现出色，有效提升了模型的预测性能。

关键词

数据重采样/特征选择/软件缺陷预测

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

严远亭

学位年度

2023

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航