摘要
“大数据”时代的数据获取技术快速发展。数据的样本数量和维度不断增加,处理和分析数据成为挑战。生物医学、电子商务、计算机视觉等领域的数据具有大量不相关和冗余的特征,特征选择能够选择有价值的特征,并且有助于提升数据预处理、数据分类和数据可视化等性能。 本文对过滤式、包裹式和混合式算法展开研究。过滤式算法根据数据本身的特性选择特征子集,不依赖学习算法的性能。过滤式算法的计算开销小,但是分类性能一般。包裹式算法以学习算法的性能作为评价标准,它的分类性能优异但是时间复杂度较高。混合式算法结合过滤式算法和包裹式算法的优势,能够平衡分类性能和时间复杂度。然而,特征选择算法仍然存在以下三点不足:一是忽略样本分布,样本权重系数分配和冗余性;二是收敛速度过快,易于陷入局部最优;三是候选子集丰富性不足。本文针对特征选择算法的三点不足,围绕分类正确率和选择特征个数等性能指标,提出三个特征选择改进算法。主要内容如下: (1)提出一种多方向Relief算法(MultidirectionalRelief,MRelief)。首先,使用多方向邻居搜索方法查找距离阈值内不同方向的所有邻居,获取规则分布的邻居样本。MRelief输出的特征权重比Relief输出的特征权重更加准确。其次,结合样本权重系数,MRelief提出一个改进的目标方程,降低噪声的影响。新的目标方程有助于提升Relief的分类正确率。然后,MRelief提出一种新的子集生成方法,结合最大皮尔森最大距离算法(MaximumPearsonMaximumDistance,MPMD)用于获得置信候选子集。新的子集生成方法能够减少特征之间的冗余性。最后,多分类扩展用于处理多分类数据。通过在9个UCI数据集和11个微阵列数据集的大量实验结果表明,MRelief的性能明显优于其他8个对比算法。 (2)提出一种全局混沌蝙蝠算法(GlobalChaoticBatAlgorithm,GCBA)。GCBA算法首先使用混沌映射做种群初始化,覆盖整个解空间。此外,GCBA在每个蝙蝠进行位置更新的时候记录局部最优位置和全局最优位置,增强算法的全局搜索能力。本文使用改进的转换方程把蝙蝠个体从连续搜索空间转换成二进制搜索空间,提升算法的开发能力。为了验证GCBA算法的有效性,GCBA和6个对比算法在12个UCI数据集和5个微阵列数据集上进行测试。结果表明,与其他算法对比,GCBA算法能够获得更好的分类正确率及收敛速度。 (3)提出一种混合改进蜻蜓算法(HybridImprovedDragonflyAlgorithm,HIDA)。第一,较大权重的特征以很大的概率被选择到候选子集,较小权重的特征也有机会进入到候选子集,生成置信候选子集。候选子集的丰富性增强,避免HIDA算法陷入局部最优。第二,动态群因子有利于平衡探索和开发能力。第三,位置更新机制引入局部量子最优解和全局量子最优解用于提升开发能力。HIDA的性能在8个UCI数据集和10个微阵列数据集上进行试验,结果表明HIDA的性能优于其他6种算法。 综上所述,本文提出了三种改进特征选择算法,分别用于解决过滤式算法、包裹式算法和混合式算法存在的问题。面向结构化数据,实验结果表明,MRelief、GCBA和HIDA均取得了优异的分类性能,有助于提升数据预处理、数据分类和数据可视化等性能。