摘要
分类作为机器学习的基本任务之一,被广泛用于解决现实生活场景中的诸多问题。解决分类任务的关键是生成一个既能为数据提供结构化知识表示又具有良好分类性能的分类器。贝叶斯网络分类器(Bayesiannetworkclassifier,BNC)长期以来一直是以图形方式表达预测属性之间依赖关系的流行媒介,它可以通过估计不同类标签的后验概率分布来自然地处理不确定性背景下的推理问题。自从朴素贝叶斯(NaiveBayes,NB)广泛且成功的应用后,关于BNC的研究极大地吸引了研究者们的注意。由于其不现实的条件独立性假设,NB具有简单的拓扑结构以及优秀的计算复杂度,但在概率估计上仍表现欠佳。因此研究者们提出了许多方法通过放松其属性的条件独立性假设来改善NB的性能。在这些方法中,平均一阶依赖估计器(Averagedone-dependenceestimators,AODE)的表现尤为出众,它通过平均一系列的超父属性一阶依赖估计器(Superparentone-dependenceestimator,SPODE)的概率估计进而得到最终决策结果。AODE在保留了NB简单的拓扑结构的同时在偏差与方差上取得了均衡的良好表现,因此它成为了最受欢迎的BNC之一。 然而,与NB类似,SPODE的条件独立性假设在现实中难以成立。此外,AODE在进行集成学习时所采取的平均策略忽略了SPODE成员之间的差异,从而影响了AODE的分类精度以及泛化性能。为了进一步改善NB或AODE的性能,研究者们提出了许多改进方法,包括结构拓展、属性选择、属性加权、模型选择、模型加权以及懒惰式学习等。相较于其他改进方法,属性加权和模型加权方法能够动态地为每个属性或子模型赋予权值,通过增加高置信度属性或子模型在分类结果中所占比重从而提升模型的分类精度和泛化性能。因此本文创新地将属性加权和模型加权方法同时应用于对AODE的改进中,提出了一种面向AODE的双重加权学习策略,从而得到了名为双重加权的平均一阶依赖估计器(DoubleweightingschemaofAODE,DWAODE)的BNC模型。在属性加权阶段,本文引进了半逐点互信息和半逐点条件互信息两种信息论测度来识别变量间的关键依赖关系同时为属性赋予权重,从而调整每个预测属性的条件概率估计并且使得生成的模型更加拟合于数据。在模型加权阶段,本文应用逐点对数似然函数来衡量SPODE网络拓扑结构的合理性,进而调整模型的联合概率估计。此外,为了进一步解决独立同分布假设的问题,本文还融合了局部学习方法以学习特定数据点的局部最优权重。为了进一步验证双重加权学习策略的有效性,本文引进了0-1损失函数、偏差-方差分解、均方根误差以及Friedman检验和Nemenyi检验作为评价指标。在34个UCI数据集上的实验结果表明,与一系列包括WATAN、AODE、WAODE-MI、IBWAODE、AVWAODE-IG、AWAODE等在内的其他优秀BNC算法相比,DWAODE均有着较强的竞争力,并且在分类性能以及数据拟合上取得了优秀的综合表现。