摘要
大数据时代,各行各业涌现出海量的高维数据。高维数据中存在的许多不相关或冗余的特征使其在处理过程中需要更高的计算成本和存储要求,甚至还会带来维度灾难。特征选择是对高维数据进行降维的有效解决方法。特征选择是指从原始高维数据特征集中选取低维相关特征子集并删除冗余特征以提高后续数据处理任务性能的过程。 多视图学习的一个重要特点是利用了不同视图提供的兼容和互补信息,使得视图之间起到相互促进和增强的作用,因此多视图特征选择比单视图特征选择有更好的性能。在实际应用中,获取数据标签困难且代价昂贵,无监督特征选择更加实用。当前,对多视图无标签数据进行特征选择已经成为数据挖掘领域的一个重要问题。 现有的多视图无监督特征选择方法大多数存在以下问题:一是很难得到可靠的相似矩阵和适当的近邻分配,这使得其不能有效刻画数据间的真实结构。二是样本间的相似度矩阵、不同视图的权重向量和特征的权重向量往往是预先定义的,不能动态评估不同视图和特征的重要性,进而导致不能选出有用的特征。为了克服上述问题,本文提出了一种新的基于自适应学习的多视图无监督特征选择方法(Adaptive Learning-based Multi-view Unsupervised Feature Selection,ALMUFS)。ALMUFS算法充分利用原始数据中包含的样本结构相似性、聚类结构、视图间信息的相关性和互补性等几种重要信息,在聚类过程中同时实现特征选择。首先,由于不同视图和同一视图下不同特征的重要性都有所差异,本文设计了两种加权方案,自适应学习视图权重和特征权重对不同视图和同一视图下不同特征的贡献进行动态评估。其次,在拉普拉斯秩约束下自适应学习样本的相似度矩阵,使相似矩阵中连通分量个数与簇数目相等,得到恰当的近邻分配,从而有效刻画数据间的真实结构。然后,通过自适应学习统一的模糊隶属度矩阵作为各视图共用的伪标签指示矩阵,使得视图间信息能有效融合,实现多视图数据的兼容和互补。接下来,我们使用带有特征权重向量l2范数的正则化项使特征权重稀疏且防止过拟合,最终实现特征选择这一目标。为了求解ALMUFS的目标函数中的变量,我们设计了一种交替迭代优化的方法来求解模型,在9个公开的真实数据集上进行实验同时与几种先进的多视图无监督特征选择方法进行比较。实验结果表明我们的方法在ACC和F-measure这两个指标下优于其他方法。