基于变换L1惩罚项的稀疏核主成分分析及其在QSAR中的应用

张妙¹

扫码查看

作者信息

1. 华中农业大学
折叠

摘要

主成分分析(PCA)是一个已经成熟并广泛应用的数据处理和降维的工具，旨在保留变量最大信息量的情况下，寻求原始变量的线性组合。但是，主成分分析也存在着一些不足。首先，主成分分析中的任意主成分都是其所有变量的一个线性组合，使得主成分分析法在主成分的解释上存在困难。其次，主成分分析主要用于线性数据的处理，而在非线性数据的处理上效果则不太理想，但是在实际的应用背景中，大部分的数据是呈现非线性分布的。为了解决上述问题，目前已经提出了核主成分分析(KPCA)用于处理非线性数据；提出了稀疏主成分分析(SPCA)，主要用于进行主成分的稀疏化，得到便于解释的主成分表达；还提出了二者的结合，即基于L1惩罚项的稀疏核主成分分析(L1-SKPCA)，用于同时实现非线性处理和稀疏性。然而基于1L罚的优化问题可能存在数据之间的冗余难以去除的问题，并且1TL惩罚项(Transformedlasso)的压缩能力在相同的压缩参数下要强于L1惩罚项，故本文提出了基于TL1惩罚项的稀疏核主成分分析(TL1-SKPCA)来对其进行改进。 1TL-SKPCA的直接思考是将原方法中L1罚替换为TL1罚。该方法通过对原始变量进行非线性转换，将其投影至高维特征空间中，然后在新空间中对其进行稀疏主成分分析。但是由于投影函数无法显式获得，所以无法对数据的协方差矩阵进行分解，从而考虑将其转换成对核矩阵的分解。随后，再将核矩阵的特征分解转化成为回归系数求解模型，在该模型中加入1TL惩罚项进行系数压缩，由此得到了1TL-SKPCA的数学模型。最后利用阈值迭代法求得稀疏主成分，使得样本点在特征空间的新坐标得到了稀疏。这样，TL1-SKPCA同时实现了变量的稀疏性和非线性处理，同时由于TL1罚是介于L0罚和L1罚之间的一种惩罚项，故其压缩力度更强，更能删除存在于数据中的不必要信息。为了验证该方法的有效性，本文将其应用于定量构效关系(QSAR)问题的研究中，并将其与KPCA、L1-SKPCA的分析结果进行对比。首先，通过对环氧化酶-2抑制剂数据集COX-2分析可以发现，TL1-SKPCA在QSAR的应用中效果更加理想。将1TL-SKPCA的实验结果与KPCA相比，TL1-SKPCA能够在较大稀疏化的情况下，保留82.397%有效信息量，仅比保留相同个数主成分的KPCA少6%左右的信息。同时与L1-SKPCA结果相比得到，在相同的稀疏程度下，TL1-SKPCA能够保留比L1-SKPCA多12%左右的信息量。其次，将该方法应用于二氢叶酸还原酶抑制剂的分析中发现，KPCA累计方差为76.48%，同时TL1-SKPCA的方差贡献率为70.45%，相对减少了6%左右，但是后者在每一主成分上实现了接近60%的稀疏性，由此可以看出，TL1-SKPCA在达到稀疏效果的同时也保留了较多的信息。然而L1-SKPCA只保留了48.23%的信息，比TL1-SKPCA少了接近22%，相差较大，由此得出其在相同稀疏度的情况下，L1-SKPCA拥有的信息量少于TL1-SKPCA。因此从上述结论可以看出，TL1-SKPCA是行之有效的。基于以上分析，本文所提出的TL1-SKPCA能合理的应用于QSAR问题中，能够用于该领域中的数据压缩和提取，帮助后续关于化合物性质的进一步评价。同时也能减少实际中对化合物性质检测实验的时间和金钱投入，促进药物研究、计量化学等领域的进一步发展。

关键词

稀疏核主成分分析/TL1惩罚项/定量构效关系/数学模型

引用本文复制引用

授予学位

硕士

学科专业

经济统计

导师

潘志斌

学位年度

2018

学位授予单位

华中农业大学

语种

中文

中图分类号

段落导航