基于离散哈希的聚类分析

轩书婷¹

扫码查看

作者信息

1. 烟台大学
折叠

摘要

随着信息技术的飞速发展，世界已经在互联网的支持下迈入了“多媒体大数据”的时代。大量的多媒体信息所蕴含的巨大的社会和经济价值，不仅给社会的进步和发展带来了新的机会，而且还带来了新的挑战。面对海量的多媒体数据，如何有效地处理这些数据，并进行有效的图像聚类，是当前计算机科学领域中的一个热点问题。在基于k-means的聚类算法中，哈希表示学习因其效率高和存储代价低等特点受到广泛的关注。然而，在广泛使用的图像、文本数据中，由于其特征维度高、数据规模大等特点，使得基于哈希的学习在聚类过程中，聚类效率和聚类时间等方面仍然存在较大的问题。面对来源丰富的多媒体数据，如何利用视图之间有效信息，设计高效的聚类算法是当前亟待解决的问题。综合以上分析，围绕多媒体数据的高维度、大规模、多视图这三个问题，提出了以下三种聚类算法来提高聚类效率。（1）针对高维数据这一问题，提出了一种基于自动特征选择的二进制哈希方法用于图像聚类。首先，引用l2,1范数的自适应特征选择特性对输入的数据进行自动特征选择，通过多次迭代选择原始数据中最有用的特征后完成数据的降维。然后，利用哈希函数将高维数据投影到低维空间。在低维、稀疏的汉明空间对降维后的数据进行低秩矩阵分解和谱嵌入，从而在二值汉明空间中完成聚类。通过实验结果验证了所提方法具有较好的聚类性能以及较高的效率。（2）针对大规模数据这一问题，提出了一种带有自适应损失函数的无监督特征选择的哈希方法用于图像聚类任务。首先，将一个无监督哈希学习模型和二进制聚类学习结合为一个联合优化目标。然后，联合了一个位于l1范数和l2范数之间并结合两者优点的自适应损失函数，用来增强对异常值的鲁棒性。最后，将对二元数据进行低秩矩阵分解和谱嵌入，并在汉明空间中进行了快速聚类。通过实验验证了该方法在聚类性能上的优越性。（3）针对多视图数据的问题，提出了一种带有泛化误差界的去冗余多核聚类。将聚类标签的生成和一致划分矩阵的学习过程集成到一个统一的框架中，同时引入非冗余正则化算法来减少视图之间的冗余。最后，对算法进行泛化误差界理论分析。通过实验结果验证了所提方法聚类性能的优越性以及高效性。

关键词

离散哈希/图像聚类/多视图/误差学习/矩阵分解

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘惊雷

学位年度

2023

学位授予单位

烟台大学

语种

中文

中图分类号

段落导航