摘要
多标签分类学习在诸如图像识别、文本分类、生物信息等领域有着广泛的应用和重要的意义,尽管该领域在多标签分类学习上已经有了很多进步,但还存在着一些需要处理的问题。首先,在大多数阈值策略中,阈值模型主要是基于评分模型对所有训练实例的输出来学习,因此与评分模型密切相关,而大多数传统的多标签分类算法使用固定标签阈值或者独立的阈值函数作为参数,没有研究将阈值模型和评分模型之间的关系。除此之外,损失函数和偏置项对机器学习算法的构造和设计起到关键作用,在大多数机器学习的算法中,并没有对此进行研究。为了解决这些问题,本文提出一种将评分模型和阈值模型联合优化的框架,并基于该框架提出两种算法,自适应标签阈值算法和固定标签阈值算法,并研究了不同损失函数和是否添加偏置项对自适应标签阈值算法的影响。这两种算法都以增量的方式更新模型,并将此两种模型整合到一个优化问题中,并在公开数据集上进行了实验验证和分析。研究内容主要涵盖以下四个方面: (1)提出了一种将评分模型和阈值模型联合优化的在线多标签分类框架。该框架的核心思想是,将阈值和评分模型作为在线多标签分类器的重要组成部分,并将它们合并到一个在线优化问题中。在该框架下,提出了两种算法,即自适应标签阈值算法和固定标签阈值算法,这些算法的优化方式均采用了在线梯度下降。最后,通过实验证明,在多个多标签性能指标上,自适应标签阈值和固定标签阈值算法都具有优势。 (2)研究了不同损失函数对自适应标签阈值算法的影响。自适应标签阈值算法是基于合页损失函数设计的。因此将三种二分类损失函数扩展为多标签分类损失函数,并将它们应用于自适应标签阈值算法。分析了不同损失函数对自适应标签阈值算法性能的影响,并在六个数据集上与五个先进的在线多标签分类算法进行了对比实验。实验结果表明,基于对数损失函数的自适应标签阈值算法性能最优,证明了算法的有效性。 (3)研究了偏置项对自适应标签阈值算法的影响。自适应标签阈值算法是一种基于支持向量机的多标签分类算法,具有优异的性能,但其没有考虑偏置项的作用。在单标签分类问题中,偏置项对支持向量机的性能有重要影响,尤其是在标签分布不均衡的情况下。在文本数据集中,标签分布不均衡问题很常见。我们在九个文本数据集上与原算法进行了对比实验,结果表明,带偏置项的自适应标签阈值算法性能更高。 (4)开发设计了基于自适应标签阈值算法的在线多标签分类系统,该系统可以根据用户的需求,定制不同的任务和算法,构建不同的模型。用户可以根据特征提取的算法和标签个数,定制个性化的任务。用户也可以根据不同的损失函数和是否使用偏置项,定制不同的算法。用户可以为每个任务,选择合适的算法进行建模。在模型构建过程中,用户可以自定义各种超参数。在模型构建完成后,用户每次训练模型都是以增量的方式更新模型。