摘要
恶性肿瘤,俗称癌症,近些年来已成为危害人民安全健康生活的主要疾病。由于癌症的发生往往伴随着正常基因的错误表达以及基因突变,研究者们可以通过检查基因表达谱中基因的不同表达变化情况,来对病人是否患有癌症做出判断。基因表达数据作为有效的基因活动的信息特征,成为研究者们研究癌症的重点数据。由于基因表达数据样本的数量通常只有几百个,而基因的数量可以达到数千个,数万个甚至更多,与癌症发病相关的致病基因数量却很少,导致此类数据存在样本容量小,维度特征高,冗余信息多的特点。有必要提前通过机器学习算法对基因表达数据进行降维处理,为后续的特征基因选择和癌症分类聚类分析任务获取有用的鉴别信息。一些基于矩阵分解的方法(如PCA, LRR等)被提出,并被应用在高维度、高冗余数据中提取特征。然而随着数据复杂性的增加以及这些传统方法本身存在不足之处,现在已经无法获得令人满意的结果。 (1)提出了一种新的基于 PCA 的鲁棒拉普拉斯监督判别稀疏主成分分析(RLSDSPCA)。目前大部分基于PCA的方法存在局限:大多数方法没有将提高对异常值和噪声的鲁棒性、标签信息、稀疏性和捕获局部几何结构结合到一个目标函数中。为了克服这一不足,本文中,一种新的基于PCA的方法,称为鲁棒拉普拉斯监督鉴别稀疏PCA(RLSDSPCA)被提出。该方法在误差函数上强制L2,1范数,并将图拉普拉斯流形引入到监督鉴别稀疏PCA中。为了评估所提出的RLSDSPCA的有效性,将其应用于基因表达数据的特征基因选择和癌症分类问题。计算实验结果表明, RLSDSPCA取得了最好的性能。 (2)提出了一种新的基于LRR的方法,称为基于Huber损失和序数局部性的块对角低秩表示(HOBLRR)。目前大部分图正则LRR中的图正则项只考虑了原始数据的局部几何结构而忽视了序数局部性。为此,在本研究中提出了一种新的基于LRR的方法,称为基于Huber损失和序数局部性的块对角低秩表示(HOBLRR)。该方法在LRR的误差函数上强制Huber损失实现对噪声离群值的鲁棒性,在图正则中同时引入保持局部几何结构和序数局部性,除此之外,对低秩表示矩阵强制块对角矩阵正则化来直接寻求块对角矩阵。将该方法应用于仿真数据聚类,基因表达数据的特征基因选择和癌症样本聚类问题。最终的实验结果表明,HOBLRR可以达得了最佳性能。 (3)为了方便其他基因表达数据研究人员的使用,基于Spring MVC框架开发了一个在线WebServer用于提供面向基因表达数据的癌症样本分类的预测服务。