摘要
随着现代信息社会的飞速发展,文本、图像、语音等高维数据呈现爆发式的增长。伴随着数据维度的不断增长,冗余特征的数量也不断增加,若是直接使用全部特征进行模型训练,不但会消耗大量的存储空间和计算时间,还会降低最终的准确率。特征选择,是分类问题中必要的初始步骤,它旨在选择能够改进分类结果的特征。此外,通过删除某些不相关的特征或冗余特征,使得数据的维数降低,从而使模型具有更好的泛化能力以及简洁,降低数据存储和处理的成本。特征选择是一个NP问题,群智能优化算法是解决特征选择问题的一个重要手段。 相比较于其它群智能优化算法而言,蝗虫优化算法模型简单,所需调整的参数少,且在处理优化问题时性能优异。正是由于以上优点,蝗虫优化算法被越来越多的学者们所关注。但是随着研究的不断深入,蝗虫优化算法容易陷入局部最优,收敛速度慢等问题也逐渐暴露出来。因此近年来学者们通过大量的学习分析和研究,不断的优化算法模型,引入不同机制对蝗虫优化算法进行改进,以提升算法性能。 针对传统的蝗虫优化算法所存在的问题,本文对其进行优化并应用于函数求解、特征选择和多目标优化,具体如下: 1.针对函数优化问题,首先使用反向对立学习策略替代随机初始化种群策略,通过对初始种群中的蝗虫个体的对立点进行搜索来提升初始种群的质量。其次,引入莱维飞行相关思想,利用莱维飞行大多数时间进行局部距离搜索与偶尔进行大范围搜索的特点,提高算法的全局寻优能力,降低蝗虫个体陷入局部最优的可能性。最后,通过对当前迭代的最优个体进行混沌局部搜索,进一步提升探索能力。实验验证了该算法的有效性和可行性。 2.针对特征选择问题,首先采用量子计算相关思想,将蝗虫个体量子化表示,在不增加个体的数量情况下增加种群的多样性。其次,采用动态种群策略,通过引入早熟机制,防止个体陷入局部最优而无法跳出。通过引入灾变机制,防止个体过早收敛,解决了传统蝗虫算法容易过早收敛的问题。同时,发现了在采用粗糙集作为评价函数时在某些情况下无法区分特征子集的问题,这是由于只考虑已选特征与决策特征之间的依赖度而忽略了未选特征的作用,因此我们通过引入互信息相关知识,认为已选特征不仅与决策特征的属性依赖度高,而且还需与未选特征之间的冗余度高。与未选特征冗余度越高,表示与已选特征冗余度越小,从而解决了无法区分候选特征的问题。实验验证了该算法的有效性和可行性。 3.针对多目标优化问题,首先采用蝗虫优化算法核心思想进行位置更新,计算当前个体与非支配个体之间的特征关系,根据不同的情况,计算相对于非支配解中多余或缺失特征之间的属性依赖度值进行局部搜索,保留插入或者删除某个特征后属性依赖度最大的个体。同时通过精英交叉与线性突变来防止个体陷入局部最优。实验验证了该算法具有有效性和可行性。