摘要
现如今,伴随计算机科学理论研究和高新技术的飞速发展,以及现实应用需求的增加,算法的性能要求也随之水涨船高。在无监督机器学习领域中,子空间学习方法因其高效性和高可解释性的特点而被广泛运用。国内外学者对无监督子空间学习方法做了许多研究。包括线性子空间学习方法、流形子空间学习方法和低秩子空间学习方法等。其中,低秩子空间学习方法通过引入低秩约束,可以较为完整地保留原始空间中数据点之间的全局结构信息。 本文主要提出一种全新的基于投影潜在低秩表示的子空间学习方法(ProjectiveLatentLow-rankRepresentation,PLLR)。与大多数现有的基于低秩表示的子空间学习方法直接使用原始数据作为特征字典来学习具有低秩约束的表示系数矩阵不同,PLLR具有以下特点: (1)引入潜在表示。在现实应用场景中所获取的高维原始数据通常会受到各种因素的干扰,因而会包含许多冗余特征和噪声信息(如阴影、腐蚀等)。所以当直接使用原始特征数据矩阵来作为特征字典时,难免会使得算法的性能受到其中负面因素的影响。于是我们提出通过原始数据的潜在特征表示来作为低秩表示的特征字典,以分离输入和输出,使最终表示系数矩阵的学习过程不直接受到隐藏在原始数据中的负面因素的影响。 (2)引入正交字典。要找到较为合理的潜在特征表示子空间,一般需要比较充分地发掘原始数据特征中所包含的具有判别力的特征信息。并且,最理想的状态是可以选择性地过滤其中的干扰信息。为此我们引入正交字典,通过数据重构的方式来学习原始数据的潜在特征表示,使得其能够保留原始数据中的主要能量,同时过滤其中所包含的冗余特征和噪声信息。最后将得到潜在特征表示作为特征字典以实施低秩表示学习。 (3)引入图嵌入。低秩表示方法的局限性在于往往只关注了原始空间中的全局结构而忽略了局部结构的作用。为此我们通过图约束,将原始数据中的局部结构信息嵌入到潜在特征表示中。使得在低秩学习过程中所得到的最终表示系数矩阵可以同时保留原始数据的全局结构和局部结构。 本文主要在无监督特征提取和聚类两种场景下进行了大量实验,并且通过实验结果可以证明所提出的基于投影潜在低秩表示的子空间学习方法不仅具有优异的性能,还具有良好的稳定性和可靠性。