摘要
无监督领域自适应是机器学习领域的一种重要技术,旨在利用源领域数据来帮助进行目标领域的任务,而无需使用目标领域的标注数据。在无监督条件下,目标样本没有标签,无法准确进行条件分布对齐。可通过生成伪标签,将特征预处理后的源域样本和目标样本结合,进行分类器训练。伪标签不准确将会带来不可靠的分布对齐问题,导致分类出现误差。本文考虑样本相似性以及差异性,提出了有关投影学习和伪标签改进的领域自适应方法,主要研究内容如下: (1)针对未充分考虑目标样本的数据结构信息,导致目标伪标签不准确的问题,本文结合样本加权提出了一种关于特征投影学习,并结合样本结构信息来改进伪标签的方法。首先,该方法通过学习特征投影,将高维原始空间的样本特征投影到公共低维子空间上,减少跨域联合分布偏移,最小化目标分类误差。其次,该方法利用聚类特性考虑样本相似度,通过最近邻搜索为目标样本的聚类类心寻找距离最近源域类心,为目标样本分配更准确的伪标签。最后,将投影后的源域、目标域样本以及伪标签用于样本加权,训练分类器,对目标样本进行分类识别。将方法在数据集上进行实验,验证其能够提升目标分类精度。 (2)针对在迭代学习过程中,由于初始弱分类器对目标样本标记不完全准确而导致分类误差累积的问题。本文提出了一种基于流形子空间学习和伪标签选择的方法。该方法首先利用流形学习对样本进行预处理,通过将原始样本变换到格拉斯曼流形空间,得到流形特征。其次利用最近类原型、结构化预测和类心匹配对目标样本的伪标签选择分配,为给定目标样本选择概率最大的伪标签。在数据集上进行实验,验证了该方法能够提升分类器性能。 本文在无监督领域自适应背景下,提出了基于伪标签改进与投影学习的加权域自适应方法和基于流形子空间学习的选择性伪标记方法。利用特征投影先预处理源域和目标域样本,减少了领域样本分布差异;利用目标域数据分布的结构信息以及样本的相似性,缓解了伪标签标记误差的问题,提高了目标样本的分类精度。