摘要
分类是数据挖掘中的一个重要课题。分类的目的是为了构造出一个分类函数或者分类模型,这个模型可以将数据库中对应的数据项映射到一个给定的类。数据挖掘的分类一般用在提取描述重要数据类的模型或者预测未来数据趋势。朴素贝叶斯分类模型是当前分类算法的研究热点之一,它具有结构不复杂、分类精度高和速度快等优点。运用该模型进行分类的原理是利用训练集构造出一个分类模型,如果训练集中有存在噪声实例,那么它会降低分类器的性能。本文以优化训练集为研究内容,探讨了基于单属性有效度和结合双属性有效度的朴素贝叶斯分类改进模型,通过自定义的单属性有效度和双属性有效度淘汰数据集中的噪声样本,从而实现训练集优化,提高分类准确率的目标。 本文主要工作如下: 1、介绍了贝叶斯分类的基本理论和朴素贝叶斯分类模型。 2、对几种常用的改进朴素贝叶斯分类模型进行分析:树扩展型贝叶斯分类模型、半朴素贝叶斯分类模型、贝叶斯信念网络分类模型。 3、在使用训练集构建分类器前,基于贝叶斯理论的思想,以单属性为研究对象,通过自定义的单属性有效度淘汰训练集中的噪声实例,实现训练集的优化。 4、在基于单属性有效度的改进模型的前提上,结合双属性有效度,发现和淘汰训练集中存在的更多噪声样本,进一步优化训练集。 基于大规模数据及大量的实验结果表明:本文提出的改进方法是可行的,而且能有效的提高分类的准确率。