基于粗糙集的特征选择算法研究

李超伟¹

扫码查看

作者信息

1. 山西大学
折叠

摘要

粗糙集理论（Rough Set Theory）是波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定数据的软计算方法，是目前国际上人工智能理论及其应用领域中的重要研究热点之一。由于粗糙集理论方法独特、思想新颖，在提出的三十余年里面，吸引了大量研究人员对其进行研究，并成功的衍生出模糊粗糙集、优势关系粗糙集、决策理论粗糙集、变精度粗糙集等多种适用于处理复杂类型数据的粗糙计算模型。这些模型已成功应用于机器学习、模式识别、决策支持、过程控制、数据库知识发现、专家系统等研究领域。基于粗糙集的特征选择（属性约简）是粗糙集理论研究的核心内容之一，主要是在保持原始数据的属性区分能力不变的前提下，选择具有最小特征（属性）数的特征子集，达到消除无关和冗余特征，提高知识发现效率，改善分类器性能的目的。随着目前大量高维海量复杂数据的出现，这种解决问题的思路对于处理具有高价值总量、低价值密度、含有大量冗余属性的大数据研究具有重要的意义。本文跟踪国际学术前沿，对基于粗糙集理论的属性约简进行整理分析，在借鉴Page Rank算法思路的基础上，提出了通过对属性进行“全局性”重要度排序，进而构造一种新的属性约简算法。另外，总结已有粗糙集特征选择的部分方法及数据集的预处理方法，设计了包含粗糙集特征选择与数据集预处理方法的RSLibrary类库，在类库的基础上设计了粗糙集特征选择系统。本文主要工作如下: (1)启发式属性约简算法的分析与比较。对经典的启发式属性约简算法、启发式约简加速算法、启发式约简双向约简加速算法分别进行了具体的分析和比较。 (2)提出一种基于“全局性”属性重要度排序的特征选择算法。将粗糙集理论与Page Rank算法结合，借鉴其投票机制，提出了属性排序算法(Attribute Rank)，进而设计了基于属性排序的特征选择算法。在处理海量数据时，该算法的并行版本能够在可接受时间内得出结果。 (3)设计了基于粗糙集的特征选择系统。针对在粗糙集学习中，做实验时，需要编写大量重复性代码、检验编码正确性、对比实验结果、对数据集进行大量预处理等工作，设计了包含常见粗糙集属性方法与数据集预处理的粗糙集类库。在此类库的基础上开发了基于粗糙集的特征选择系统。最后，将本文内容进行总结，说明了针对该类问题可以深入研究的方向。这些研究内容，探索了将属性约简并行化的方法，为大数据的数据挖掘提供有价值的参考。同时，进一步丰富了基于粗糙集的数据挖掘算法，为发展高效的数据挖掘方法提供一定的借鉴和指导，借此进一步推动并促进该领域的发展。

关键词

粗糙集理论/特征选择/属性排序/属性相异系数

引用本文复制引用

授予学位

硕士

学科专业

计算机软件与理论

导师

梁吉业

学位年度

2013

学位授予单位

山西大学

语种

中文

中图分类号

段落导航