首页|基于变换L1惩罚项的稀疏核主成分分析及其在QSAR中的应用

基于变换L1惩罚项的稀疏核主成分分析及其在QSAR中的应用

张妙

基于变换L1惩罚项的稀疏核主成分分析及其在QSAR中的应用

张妙1
扫码查看

作者信息

  • 1. 华中农业大学
  • 折叠

摘要

主成分分析(PCA)是一个已经成熟并广泛应用的数据处理和降维的工具,旨在保留变量最大信息量的情况下,寻求原始变量的线性组合。但是,主成分分析也存在着一些不足。首先,主成分分析中的任意主成分都是其所有变量的一个线性组合,使得主成分分析法在主成分的解释上存在困难。其次,主成分分析主要用于线性数据的处理,而在非线性数据的处理上效果则不太理想,但是在实际的应用背景中,大部分的数据是呈现非线性分布的。为了解决上述问题,目前已经提出了核主成分分析(KPCA)用于处理非线性数据;提出了稀疏主成分分析(SPCA),主要用于进行主成分的稀疏化,得到便于解释的主成分表达;还提出了二者的结合,即基于L1惩罚项的稀疏核主成分分析(L1-SKPCA),用于同时实现非线性处理和稀疏性。然而基于1L罚的优化问题可能存在数据之间的冗余难以去除的问题,并且1TL惩罚项(Transformedlasso)的压缩能力在相同的压缩参数下要强于L1惩罚项,故本文提出了基于TL1惩罚项的稀疏核主成分分析(TL1-SKPCA)来对其进行改进。 1TL-SKPCA的直接思考是将原方法中L1罚替换为TL1罚。该方法通过对原始变量进行非线性转换,将其投影至高维特征空间中,然后在新空间中对其进行稀疏主成分分析。但是由于投影函数无法显式获得,所以无法对数据的协方差矩阵进行分解,从而考虑将其转换成对核矩阵的分解。随后,再将核矩阵的特征分解转化成为回归系数求解模型,在该模型中加入1TL惩罚项进行系数压缩,由此得到了1TL-SKPCA的数学模型。最后利用阈值迭代法求得稀疏主成分,使得样本点在特征空间的新坐标得到了稀疏。这样,TL1-SKPCA同时实现了变量的稀疏性和非线性处理,同时由于TL1罚是介于L0罚和L1罚之间的一种惩罚项,故其压缩力度更强,更能删除存在于数据中的不必要信息。 为了验证该方法的有效性,本文将其应用于定量构效关系(QSAR)问题的研究中,并将其与KPCA、L1-SKPCA的分析结果进行对比。首先,通过对环氧化酶-2抑制剂数据集COX-2分析可以发现,TL1-SKPCA在QSAR的应用中效果更加理想。将1TL-SKPCA的实验结果与KPCA相比,TL1-SKPCA能够在较大稀疏化的情况下,保留82.397%有效信息量,仅比保留相同个数主成分的KPCA少6%左右的信息。同时与L1-SKPCA结果相比得到,在相同的稀疏程度下,TL1-SKPCA能够保留比L1-SKPCA多12%左右的信息量。其次,将该方法应用于二氢叶酸还原酶抑制剂的分析中发现,KPCA累计方差为76.48%,同时TL1-SKPCA的方差贡献率为70.45%,相对减少了6%左右,但是后者在每一主成分上实现了接近60%的稀疏性,由此可以看出,TL1-SKPCA在达到稀疏效果的同时也保留了较多的信息。然而L1-SKPCA只保留了48.23%的信息,比TL1-SKPCA少了接近22%,相差较大,由此得出其在相同稀疏度的情况下,L1-SKPCA拥有的信息量少于TL1-SKPCA。因此从上述结论可以看出,TL1-SKPCA是行之有效的。 基于以上分析,本文所提出的TL1-SKPCA能合理的应用于QSAR问题中,能够用于该领域中的数据压缩和提取,帮助后续关于化合物性质的进一步评价。同时也能减少实际中对化合物性质检测实验的时间和金钱投入,促进药物研究、计量化学等领域的进一步发展。

关键词

稀疏核主成分分析/TL1惩罚项/定量构效关系/数学模型

引用本文复制引用

授予学位

硕士

学科专业

经济统计

导师

潘志斌

学位年度

2018

学位授予单位

华中农业大学

语种

中文

中图分类号

O1
段落导航相关论文