首页|基于演化计算的特征选择方法研究

基于演化计算的特征选择方法研究

李涛

基于演化计算的特征选择方法研究

李涛1
扫码查看

作者信息

  • 1. 哈尔滨工程大学
  • 折叠

摘要

特征选择技术是大数据分析与数据挖掘研究的热点之一,数据维度的激增为特征选择理论和方法带来了新的困境。特征选择能有效地处理高维数据,改善学习模型的泛化能力,但是数据规模的日益膨胀以及数据类型结构的多样化严重影响学习算法对数据的分析性能。依据特征蕴含信息的重要性,原始特征可以划分为无关特征、相关特征和冗余特征,而相关特征与冗余特征相互转化的特点使得搜索最优特征子集的任务更具挑战性。 本文将特征子集选择任务刻画为特征组合优化问题,采用具有良好全局搜索和并行计算特性的演化计算方法进行特征空间寻优。主要研究适用于特征组合优化的个体编码策略、演化搜索机制、优化目标构建方法以及算法性能度量指标。分别从监督式演化计算与无监督式演化计算两方面对特征选择问题进行研究分析。前者主要研究基于单目标演化和包含分类边界信息的多目标演化的特征选择算法,以及基于个体熵的二元差分演化特征选择算法。后者主要针对样本缺少标签信息指导的问题,研究基于演化计算理论的无监督特征选择及其演化聚类优化算法。本文的主要创新点和具体研究内容为: (1)提出基于粒信息遗传优化的特征选择算法。构建基于粒信息的特征选择框架,通过粒化分析特征所包含的分类信息量以评价特征子集的优劣,从信息粒化的角度分别设计基于新型二进制遗传算法的特征粒化算子和基于粒度?邻域粗糙模型的样本粒化算子。特征粒化方面,设计基于粒化的机制评估候选特征子集,使得特征粒化算法选择出重要的特征;样本粒化方面,根据邻域半径先验知识划分不同的粒度层,并计算特定粒度层下的决策属性对条件属性的依赖度,从而获得良好的特征子集。为进一步研究分析粒度参数对候选特征子集选择的影响,又给出基于遗传算法的粒度优化算法,其主要目的是以自适应的方式选择合理的粒度值,使得获得的特征子集达到最优。通过实验结果以及应用实例表明,所提方法能显著改善特征子集的分类准确度。 (2)提出基于改进多目标优化的混合特征选择算法。针对单目标特征选择算法选择出特征子集的综合性能较差的问题,本文分析多个优化目标的冲突关系,继续研究邻域模型中分类边界信息对特征重要度量的影响,引入新的邻域模型来计算正域值,该方法将边界区域蕴含的分类信息融入正区域中,使得选择的特征子集尽量包含相关特征。在此基础上,将特征子集规模与分类错误率作为两个优化目标综合评估候选特征子集的质量,同时设计相应的二进制编码策略,并将优化目标嵌入个体编码中以实时监控个体质量,利用个体非支配算子来获得Pareto解集。与此同时,计算候选个体之间的拥挤距离以增强演化进程中种群的多样性。给出特征核集的概念,研究Pareto前沿中不同候选特征子集的交叉信息,并基于此来计算最优的Pareto解。由实验结果分析表明,该方法能有效平衡相关特征数目和分类准确度的性能,获得良好的折中解。 (3)提出基于个体熵的二元差分演化特征选择优化算法。为研究分析演化过程中多样性与收敛性对特征子集寻优的影响,提出一种高效的二元差分演化算法。首先定义个体熵,分析和量化个体熵与种群多样性的关系,并将个体熵融入优化目标函数,监督特征空间搜索过程中种群多样性的变化,然后给出一种基于局部反向学习的初始化策略,以避免因种群随机性造成的不收敛或早熟问题;设计能满足闭合条件的离散变异算子,根据不同的演化阶段采用相应的子操作,保证演化算法种群的多样性与收敛性。同时设计基于个体熵的自适应二元交叉算子,使得交叉因子依据个体适应度反馈自行调节,减少主观因素对演化过程的负作用。通过实验结果分析显示,所提方法在保证良好的分类性能和特征子集规模情况下,明显压缩了演化算法的时间成本。 (4)提出基于差分演化的无监督特征选择及其聚类优化算法。针对缺乏标签信息指导特征子集搜索的问题,引入流形学习模型,构建新型的拉普拉斯计算方法来刻画数据集的内部结构,保留原始样本之间近邻或远离的关系,依据拉普拉斯值度量所选特征具有的局部保留能力,提出基于离散型差分演化的无监督特征选择优化算法,并给出新的个体变异算子和个体交叉算子,以获得优化的特征子集;为了验证选择的特征子集的质量,继而提出基于连续型差分演化的聚类优化算法,设计基于模式的编码策略来表征种群中的个体,并将样本间的紧密度与稀疏度作为聚类的优化目标,采用聚类精度、标准互信息和调整兰德指数三个指标来分析聚类结果。与现有基于稀疏学习的无监督特征算法对比可知,该方法可以有效地选择出能保留数据内部流形结构的关键特征,改善聚类效果。

关键词

特征选择/演化计算/组合优化/邻域粗糙集/收敛性分析

引用本文复制引用

授予学位

博士

学科专业

软件工程

导师

董红斌

学位年度

2019

学位授予单位

哈尔滨工程大学

语种

中文

中图分类号

TP
段落导航相关论文