基于随机近邻嵌入的判别性特征学习

赵辉¹

扫码查看

作者信息

1. 西南交通大学
折叠

摘要

特征学习的目的是获取原始数据的有效表示，进而提升聚类或分类等机器学习算法的性能。现有的部分特征学习算法侧重于在特征学习的过程中保持原始数据的拓扑结构，却忽略了数据中的判别信息。拓扑结构作为原始数据的重要描述信息，可以用来很好地指导特征学习，但是却无法充分体现出原始数据中包含的所有信息。判别信息作为对原始数据另一角度的描述，在部分聚类和分类任务中甚至比拓扑结构更加重要。因此，将拓扑结构与判别信息有机融合后得到的特征表示将具有更好的表达能力。为了同时学习数据中的拓扑结构和判别信息，本文提出了基于随机近邻嵌入的判别性特征学习（Discriminant Feature Learning based on t-distribution Stochastic Neighbor Embedding，DTSNE）模型。DTSNE将聚类算法与随机近邻嵌入算法的目标函数有机融合，并使用动量梯度下降法对两类参数进行迭代更新，从而使得映射空间中的样本点可以同时反映原始数据中的拓扑结构和判别信息。相比于随机近邻嵌入算法，DTSNE可以产生具有判别性的数据表示，提高了数据特征的表达能力。为了进一步加强数据特征表示的判别性，本文借鉴半监督集成学习的思路，提出了由成对约束引导的基于随机近邻嵌入的判别性特征学习（Discriminant Feature Learning based on t-distribution Stochastic Neighbor Embedding guided by Pairwise Constraints，pcDTSNE）模型。pcDTSNE通过聚类集成的方式引入成对约束，并利用成对约束对目标函数施加惩罚，从而使得映射空间中的样本点呈现更强的判别性。相比于DTSNE，pcDTSNE对数据中判别信息的学习能力得到了进一步的加强，数据特征表示的能力也得到了显著提升。为了验证DTSNE与pcDTSNE特征学习的性能，本文在多个公开数据集上对其进行了广泛的实验。实验结果表明，由DTSNE模型得到的数据特征表示在聚类和分类任务中都有更好的表现。在引入成对约束后，pcDTSNE模型产生的数据特征的表达能力得到了更进一步的提升。

关键词

数据集/判别性特征学习/随机近邻嵌入/聚类算法

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王红军

学位年度

2022

学位授予单位

西南交通大学

语种

中文

中图分类号

段落导航