基于改进聚类算法的离群点检测方法研究

杜晓涵¹

扫码查看

作者信息

1. 大连海事大学
折叠

摘要

随着信息化时代的到来，如何在海量数据中快速地提炼出所需信息已成为难题，数据挖掘技术的提出为之提供了解决方案。离群点检测技术是数据挖掘领域的研究热点之一，筛选数据集中的离群点不仅可以作为数据分析的预处理步骤，还可以通过研究离群对象携带的信息获取新的行为特点，为生产、科研提供新思路。因此，设计合适的算法对数据集中的离群点进行高效且准确的检测显得尤为重要。本文通过对现有检测方法进行分析，提出了一种基于改进聚类算法的离群点检测方法。方法分为两部分，第一部分是利用改进后的K-Means算法对球形数据集做聚类处理，聚类之后使用邻域平均距离筛选离群点；第二部分，针对非球形数据集的离群点，结合密度峰值聚类算法对离群点检测方法进行优化。本文所提方法的主要研究内容如下：（1）基于邻域平均距离的离群点检测算法针对球形数据集中的离群点，算法将改进后的K-Means算法用于离群点检测，具体流程分为两步。第一步，采用改进的K-Means算法对数据集进行聚类操作。针对传统的K-Means算法存在的参数敏感问题，使用肘部法确定合适的聚类个数K值，并采用二分K-Means算法通过多次切分聚类效果不佳的数据簇来削弱初始质心选取不当带来的影响。第二步，离群点筛选。聚类完成之后，计算每个数据簇中质心的邻域平均距离，通过该值的变化曲线确定离群点的阈值，将与所属簇的质心的距离大于阈值的点标记为离群点，从而确定数据集的离群点集。经实验验证，该算法的检测结果相较于对比算法的检测效果有明显改善。（2）基于改进密度峰值聚类的离群点检测算法针对K-Means算法只能处理球形数据集的不足，算法选择改进密度峰值聚类算法用于数据集的剪枝。算法分为三步，第一步使用自然邻居搜索算法对数据集中的离群点做初步筛选。第二步使用数据对象的近邻信息计算该点的局部密度，代替传统CFSFDP算法中密度的计算方法，避免了截断距离的人为设定，然后根据计算出的距离和密度绘制决策图，筛选出聚类中心。第三步结合聚类中心特征对数据集进行剪枝，使用LDOF算法计算数据对象的局部距离离群因子，进一步筛选其他的离群点，合并第一步结果确定最终的离群点集。经实验验证，该算法在非球形数据集上对离群点有较好的检测结果。

关键词

离群点检测/K-Means/密度峰值聚类/邻域平均距离

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

史金余

学位年度

2022

学位授予单位

大连海事大学

语种

中文

中图分类号

段落导航