基于子域特征分布差异的无监督域自适应方法研究

卫宁宁¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

深度学习的快速发展使得计算机视觉技术取得了巨大进步，然而在实际应用场景中，深度学习网络模型的泛化性易受数据分布差异的影响，为保证模型的泛化性需要海量的标记数据，但获取带有标记的数据既费时又费力。为了解决以上问题，迁移学习被提出并受到了广泛的关注。领域自适应作为迁移学习的重要分支，其通过将源域数据分布与目标域数据分布对齐的方式来实现知识的迁移。以往的领域自适应方法主要减小源域与目标域的全局分布差异，忽略了相关子域之间的特征分布差异，使得迁移性能受限。为了实现源域数据与目标域数据的类别级高度对齐，本文从域不变特征信息和目标域数据的伪标签质量两个方面进行研究分析，分别提出了基于多特征融合无监督领域自适应方法和基于邻域聚合的无监督领域自适应方法，通过多特征融合技术获得了更为准确的子域域不变特征信息，通过邻域聚合技术将目标域数据的内部结构信息加入到模型中以提高目标域数据伪标签的可靠性。本文的主要研究内容包括： (1)研究了无监督领域自适应方法。对领域自适应的基本原理和方法进行研究并对无监督领域自适应的重要性进行分析，讨论了目前存在的几种无监督领域自适应的模型并分析各个模型的优缺点，对本文所提出的无监督领域自适应方法中所涉及的源域数据分布和目标域数据分布的度量准则和特征融合技术进行阐述并分析。 (2)提出了一种基于多特征融合的无监督领域自适应方法。现有的领域自适应方法主要通过最小化分布距离来获得域不变特征，但域自适应网络只依赖此优化目标无法学习到准确的子域域不变表示，从而造成部分数据分类错误，最终源域数据和目标域数据无法实现类别级的高度对齐。针对此问题，本文提出了一种基于多特征融合的无监督领域自适应方法，该方法在考虑领域内数据类别信息的同时使用多特征融合网络结构获取子域的域不变表示，不仅使得源域数据和目标域数据在全局分布上高度对齐，还使得子域高度对齐。通过在几个公开数据集上的实验表明，该方法取得了较好的实验效果，其迁移性能超越了目前相关主流方法。 (3)提出了一种基于邻域聚合的无监督领域自适应方法。前文所提方法中目标域伪标签的质量完全依靠在源域数据分类器上的表现，若源域数据和目标域数据本质相距较远时获得的目标域数据伪标签可靠性较低，不仅会造成当前目标域数据分类错误也会造成后续传播错误，最终影响该方法的性能。针对这一问题，在前文的基础上提出一种基于邻域聚合的无监督领域自适应方法，该方法利用目标域数据的内部结构信息来提高模型中目标域伪标签的可靠性，使得模型发挥最大的迁移性能。通过在领域自适应公开数据集上进行实验验证，该方法的迁移性能得到了进一步提升。

关键词

源域数据/目标域数据/无监督域自适应/子域特征/分布差异

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

曹江中

学位年度

2022

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航