基于强化学习的多源域适应分析研究

崔岂铨¹

扫码查看

作者信息

1. 杭州电子科技大学
折叠

摘要

随着人工智能技术的快速发展和广泛应用，人们越来越关注模型在不同场景下的泛化能力。多源域适应作为解决跨域泛化问题的一种方法，在学术界和工业界引起了越来越多的关注。目前，多源域适应已经解决了从多个源域适应到目标域的自适应问题。虽然源域与目标域相关，但是源域和目标域之间的数据分布差异可能会导致负迁移，而多个源域之间也存在一定的差异，选择高质量的源数据有利于减少这个问题。然而，现有的方法选择了统一标准的数据，忽略了多个源域的多样性。在某些情况下，源域和目标域之间的不相关特征可能会导致显著的负迁移。基于上述问题，本文开展了基于强化学习的多源域适应研究，主要工作包括：（1）为解决多源域适应中源域和目标域之间的差异导致的域适应偏差问题，本文提出了基于强化学习SoftActor-Critic（SAC）算法的数据选择器，用于多源域适应。它将强化学习的SoftActor-Critic算法与熵的概念相结合，以鼓励探索。它统一了单源域和多源域的自适应问题，通过强化学习奖励评估域数据的质量，并通过奖励机制调整模型。因此，源域和目标域之间的对齐大大简化，因为它不再需要将所有源域与目标域对齐。在这种情况下，本文通过使用强化学习方法选择更好的样本进行学习来适应本节的模型。（2）为解决多源域适应中多个源域之间的差异问题，本文提出了基于强化学习的DeepDeterministicPolicyGradient（DDPG）算法选择本节的模型网络，其中包括一个参数预测器，它在每个样本的基础上更改模型参数，即实现映射。由于每个域被视为图像样本的分布，因此通过对每个样本上的模型适应来统计实现域适应模型。动态模型选择（DynamicModelChoice,DMC）学习如何调整模型的参数并适应源域的联合。因此，源域和目标域之间的对齐大大简化。在这种情况下，在目标域与源域任何部分对齐的情况下，该模型就可以很容易地适应目标样本。（3）为解决源域和目标域之间不相关特征可能导致显著负迁移的问题，本文尝试探索在多源域适应中采用对抗强化学习的研究。受强化学习选择器和动态模型选择的启发，本文使用选择器选择的数据进行迁移学习训练，基于模型损失和迁移的准确性构造奖励机制，反馈到本文的选择器和模型中，使选择器可以根据奖励评估数据的质量，模型可以根据奖励动态调整参数，试图实现共同学习的效果。本文基于强化学习，以多源域适应任务为指导，进行了强化学习为基础的多源域适应分析。这些研究成果不仅是当前多源域适应技术的有效补充，而且为其提供了更多的思路和解决方案。

关键词

强化学习/多源域适应分析/SAC算法/DDPG算法/人工智能

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

孔万增

学位年度

2023

学位授予单位

杭州电子科技大学

语种

中文

中图分类号

段落导航