摘要
决策树算法是在已知具有不同特征的样本数据出现的概率基础上,构建决策树来进行数据分析的一种算法.在数据分类算法中,决策树算法是一种经典的分类决策算法.首先,将所有的数据特征看作是各个树的节点,遍历所有特征,其中每当遍历到其中某个特征时,对特征进行分割处理,并记录分割点的数据信息,作为划分子节点的纯度依据.其次,比较记录的数据特征以及判定最优特征,寻找最优划分方式,对样本数据集进行分割操作.最后,构建符合规则的决策树.针对传统的决策树C4.5算法计算信息增益率时间过长的问题,提出了一种改进的K-C4.5算法,引用麦克劳林公式和泰勒公式的思想,将信息增益率计算公式从对数函数转化为非对数函数,从而降低运算的时间效率.以实际数据集进行测试,验证了改进后的算法具有一定的效果.