摘要
在现实世界中,多标记数据下的每一个样本都可能同时属于多个类别。多标记学习是目前机器学习中的热点研究问题。这类问题在文本分类、生物学、场景分类等领域中普遍存在。多标记学习的难点在于如何通过处理高维的属性空间以及高维的标记空间提高多标记学习算法的精度。粗糙集是由波兰学者Pawlak于1982年提出的一种刻画不完整性与不确定性的数学工具,它能有效地分析数据并从中发现隐含的知识,并且已经被应用于属性约简与分类学习。变精度邻域粗糙集是Pawlak经典粗糙集的扩展,可灵活地计算数值型数据。集成学习将具有准确性与多样性的基学习器结合,通常可得到比单个基学习器更强的泛化性能。然而,随着基学习器的增加,运算速度逐渐降低,所需存储空间也逐渐增大。而另一方面,有选择地集成部分基学习器不但能够提高运算速度,节省存储空间,而且可进一步提升泛化性能。 本文基于变精度邻域粗糙集探究多标记学习中的属性约简与选择性集成。以下为研究成果与创新点: (1)提出了多标记变精度邻域粗糙集模型,进而提出了该模型下的属性约简算法,并详细地分析了所得到的属性子空间。不同的精度与邻域能够得到不同的属性子空间。详细地讨论了精度和邻域对属性子空间的影响。基于不同的属性子空间可构造不同的学习器。集成了所得到的不同的学习器,并详细地分析了相应的集成效果。 (2)提出了两种基于聚类的多标记选择性集成算法。计算样本间的距离是此类算法的重点研究问题。基于相似度给出了不同的距离计算方式。将不同的相似度用于该算法中可得到不同的结果。最后,详细地分析了不同算法的选择性集成效果。 (3)提出了一种基于排序的多标记选择性集成算法。选择合适的排序指标是该算法的重点研究问题。以平均精度、覆盖率、汉明损失、最高标记错误率、排序损失作为排序指标,并对这五种排序指标的选择性集成效果进行了详细地分析。