摘要
近年来,基于深度学习的姿态估计任务取得了出色的成绩,目前姿态估计领域大部分工作都是关注人体姿态。由于动物姿态估计在自然动物保护、动物行为分析、动物养殖等领域存在巨大的应用价值,因此本论文以动物姿态估计为主题,利用深度学习等技术解决该领域存在的问题。本论文尝试了三个工作,工作的描述和贡献如下: (1)本论文注意到当前动物姿态估计领域主流的基于无监督域适应思想(UDA)的工作的痛点,提出了基于半监督域适应思想的动物姿态估计算法。算法利用合成动物数据集和部分真实动物数据标签完成姿态估计任务,与基于UDA思想的方法相比,本算法虽然增加了部分标注成本,但大幅提高了模型的准确率。现实世界中,不同种群的动物往往存在很大的差异性,因此不能仅依靠迁移技术去迁移其他域的知识。通过付出一部分标注成本,能够使得模型的准确率得到大幅提升,基于半监督域适应的算法更贴近现实应用场景。 (2)工作一主要关注如何利用合成动物数据和部分真实动物标签完成姿态估计任务。由于真实动物标注的获取成本比较高,因此基于半监督和半监督域适应思路的方法是比较合适的,但是这类方法需要预先明确哪些样本需要标注。目前绝大多数方法都是采用随机采样的方法来生成标注方案,本论文注意到标注样本的优劣对模型质量有很大影响,这种情况在标注预算较少时更加明显。为了进一步提高基于半监督或半监督域适应思路的算法的效果,本文基于聚类思想,提出了一个标注样本选择算法,该算法能在指定标注预算时,生成比随机采样更优的标注方案。 (3)许多工作将基于Transformer架构的模型引入到计算机视觉任务上,并取得了不错的效果。为了综合利用基于CNN架构和Transformer架构的模型的优势,并将其用于动物姿态估计任务,本文探索了两者的结合形式,提出了一个基于编码器-解码器结构的模型ReSwin。该模型通过融合两种架构的特征,并在解码器模块设计了多尺度的结构,ReSwin的准确率大幅优于两个单架构的模型。