摘要
本文主要坐了以下几方面工作: (1)对知识表达理论应用于粗糙集理论进行了研究,引用了知识量、平均知识量、熵和联合熵等概念,并将联合熵,即条件属性集和决策属性集的联合表达的平均知识量,应用于粗糙集的连续属性离散和属性约简中,作为处理的判别标准; (2)对连续属性离散化的一种方法“增类减类算法”进行了改进,提出了连续属性联合熵离散化算法。增类减类算法经历了两个过程:先将每个属性分为两类,此时判断新的属性集的支持度——是否满足与原属性集的支持度相等的条件,若相等,停止增类过程;若不等,则继续对下一个属性进行增类过程,直到满足条件。然后进行减类过程,依次对每个属性的分类数减少一个,判断新的支持度是否满足同样的条件,若满足则继续对下一个属性进行减类,若不满足,则停止减类过程,该属性的分类数即为此次减类前的分类数。而连续属性联合熵离散化算法根据支持度和属性离散的性质,只进行了一个减类过程,以初始时等价类作为初始分类,然后对各个属性按分级聚类法减少一个该属性等价数的分类,看是否满足条件属性对决策属性的联合熵相等的条件,若满足则对下一个属性进行同样的减类处理,直到支持度下降为止。 (3)为求属性集的等价类引入了等价类的二进制表示,属性集的等价类可以通过各个属性等价类的二进制表示的与运算来求解,通过属性及属性集的二进制表示还可以求解关联规则的支持度、兴趣度和准确度。在规则的发现中结合了支持度、兴趣度和准确度作为关联规则过滤的阈值。 (4)给出了决策属性等价类算法来求解决策表的属性等价类;给出了二进制支持度算法来为求解关联规则的支持度,而兴趣度和准确度都可以通过支持度来计算;为求解有效关联规则给出了有效关联规则算法。