摘要
在机器学习中,偏标记学习是一种重要的弱监督学习框架。在该学习框架中,训练示例不再具有单一明确的标记,每个训练示例的真实标记被淹没在候选标记集中,并且真实标记在学习过程中不可获知。偏标记学习问题最棘手的地方在于示例的真实标记被淹没在非真实标记之中,并且非真实标记会对学习过程产生一定的干扰。解决该问题有两种思路:采用消歧的方法和采用非消歧的方法,其中采用消歧的方法又可以分为平均消歧和辨识消歧。采用消歧思想的偏标记学习方法是从每个训练示例的候选标记集中找出对应的真实标记。其中平均消歧的思想是将示例的每个候选标记都赋予相同的权重,通过学习模型在每个候选标记上的输出来达到消歧的目的;辨识消歧的思想是将示例的真实标记视为一个隐变量,通过不断迭代更新的方式来优化目标函数,进而达到消歧的目的。采用非消歧思想的偏标记学习方法是将训练示例的候选标记集作为一个整体进行处理,利用纠错输出码来解决偏标记学习中的多分类问题。本文分别从辨识消歧和非消歧两个角度对偏标记学习展开研究,主要的工作内容如下: 第一,采用辨识消歧的思想,结合最大间隔准则,本文提出了一种偏标记学习算法PL-MM。该算法弥补了PL-SVM算法的不足,将示例的候选标记之间的差异作为模型训练的一部分。PL-MM算法不仅对示例的候选标记在模型中的最大输出与示例的非候选标记在模型中的最大输出之间的间隔进行优化,而且对示例的候选标记在模型中的最大输出与示例的候选标记在模型中的其他输出之间的间隔进行优化,来达到偏标记学习的目的。对于优化问题,PL-MM算法采用了改进的次梯度Pegasos算法求解,通过不断迭代更新的方式优化模型参数,完成了模型的学习。 第二,采用非消歧的思想,结合半监督学习,本文提出了一种偏标记学习算法PL-S2ECOC。该算法通过构造无冗余的编码矩阵,将偏标记学习中的多分类学习任务拆分成一系列二分类学习任务进行求解。在编码阶段,首先PL-S2ECOC算法构造了一个无冗余的编码矩阵,使得编码矩阵中不存在相同或者互补的列编码,保证训练得到的二分类器互不相同。然后PL-S2ECOC算法采用半监督学习器作为二分类学习器,使得每一个二分类器的学习都能充分利用整个偏标记训练集。最后通过训练好的半监督学习器来预测测试示例在二分类问题中的类别标记。在解码阶段,PL-S2ECOC算法先用二分类学习任务中没有监督信息的示例来构建加权矩阵,再通过加权损失解码的策略对测试示例生成的码字进行解码,损失最小的类别标记为测试示例的预测标记。 实验表明,与多个偏标记学习算法相比,PL-SVM算法和PL-S2ECOC算法在人工改造的UCI数据集和真实的偏标记数据集中都表现出了良好的性能。