基于K均值聚类的分段样本数据选择方法

Segmentation training data selection method based on K-means clustering

周玉 ¹孙红玉 ¹朱文豪 ¹任钦差¹

扫码查看

作者信息

1. 华北水利水电大学电力学院,郑州450045
折叠

摘要

为了提高神经网络分类器的性能,提出一种基于K均值聚类的分段样本数据选择方法.首先通过K均值聚类把训练样本根据已知的类别数进行聚类,对比聚类前后的各类样本,找出聚类错误的样本集和聚类正确的样本集;聚类正确的样本集根据各样本到聚类中心的距离进行排序并均分为五段,挑选各类的奇数段样本和聚类错误的样本构成新的训练样本集.该方法能够提取信息量大的样本,剔除冗余样本,减少样本数量的同时提高样本质量.利用该方法,结合人工和UCI数据集对三种不同的神经网络分类器进行了仿真实验,实验结果显示在训练样本平均压缩比为66.93％的前提下,三种神经网络分类器的性能都得到了提高.

关键词

训练样本/数据选择/K均值聚类/分类器/神经网络

引用本文复制引用

基金项目

河南省高等学校青年骨干教师培养计划项目(2018GGJS079)

国家自然科学基金(U1504622)

国家自然科学基金(31671580)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量9

参考文献量5

段落导航