摘要
针对传统的K近邻算法在计算样本之间相似度时将每个属性视为同等重要的问题,提出了一种基于推土机距离的方法来计算每个条件属性的权重.首先根据近邻关系划分用于比较一致性的两个分布;之后根据推土机距离设计不一致性评价函数,用于衡量每个属性下各个样本的近邻样本集与这一集合由决策属性细化的等价划分之间的不一致性程度;最后将近邻的不一致性程度转换为相应属性的重要性,用于实现属性加权K近邻分类器.通过在多个数据集上进行实验,该方法对参数的敏感程度低,在多个参数下可以显著提高K近邻的分类精度,并且在多个指标下的表现优于现有的一些分类方法.结果 表明,该方法可以通过属性加权选择出更加准确的近邻样本,可广泛应用于基于近邻的机器学习方法中.