摘要
机器学习中高维数据总是会带来一系列问题,例如过度拟合、高计算复杂度等。特征提取是将原始数据转换为一组可用作机器学习模型输入的特征的过程,可以减少计算成本,并提高模型的泛化能力。然而在使用机器学习模型时,可解释性是一个重要的考虑因素,现有的特征提取方法由于缺乏解释性,严重依赖于训练样本的质量和数量,特别是在医疗保健和金融等领域,基于模型输出的决策可能会对这些领域产生重大影响。针对上述问题,本文的研究内容如下: (1)针对现有的特征提取方法缺乏可解释性的问题,提出了一种基于非负矩阵分解的可解释特征提取方法。通过对潜在空间的非负约束使得变分自编码器框架捕获从输入层到潜在层以及潜在层到输出层的概率映射,然后使用威布尔分布来生成潜在特征。并且通过引入Wasserstein距离最小化先验分布和学习到的分布之间的距离,得到的隐变量空间具有更好的结构,使该模型可以学习到更有意义和结构化的潜在特征。 (2)针对现有的非负矩阵分解方法需要人工处理才能确定潜在特征数量的问题,提出了一种基于多层感知器的特征选择方法。利用非负矩阵分解得到的隐藏特征和统计数据训练多层感知器网络,通过模型训练来确定潜在特征的正确数量。 在两种通用数据集上对本文提出的方法进行实验分析并验证。实验结果表明本文提出的特征提取方法在具有可解释性的前提下,能够获得包含更多有用信息的潜在特征。