国家学术搜索
登录
注册
中文
EN
首页
|
高维混合类型数据的稀疏聚类分析
高维混合类型数据的稀疏聚类分析
引用
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
中文摘要:
聚类分析在研究中有着广泛的应用。近年来,具有混合类型变量(即连续变量和分类变量的混合)的高维数据给聚类分析带来了新的挑战。大多数传统的聚类方法仅针对具有单一类型变量的数据而设计,因此不能直接用于混合型变量的情况。此外,高维数据中往往存在大量的噪声变量,这使得在数据聚类的同时进行变量选择是十分必要的。为了解决这些问题,本研究开发了一种基于Davies-Bouldin指数的稀疏聚类(DBI-SC)方法,用于处理具有混合类型变量的高维数据。在该方法中,本研究分别定义了连续变量和分类变量的距离度量,然后设计了一个调整后的DBI准则来衡量每个变量对聚类的贡献。在变量选择方面,本研究基于稀疏聚类框架为混合类型变量引入不同的惩罚参数,同时对DBI-SC方法的筛选一致性进行了理论研究。大量的模拟实验表明,DBI-SC方法在聚类和变量选择方面都具有令人满意的表现。最后,本研究在代驾服务数据集上应用DBI-SC方法进行客户区隔分析。
收起全部
展开查看外文信息
作者:
徐少东
展开 >
关键词:
稀疏聚类
混合类型数据
变量选择
DBI准则
惩罚参数
授予学位:
硕士
学科专业:
统计学
导师:
李扬
学位年度:
2023
学位授予单位:
中国人民大学
语种:
中文
中图分类号:
TP