面向视觉感知任务的小样本学习方法研究

刘冲¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

视觉感知旨在利用计算机的高效计算能力来处理庞大的视觉数据，从而让计算机像人类一样去感知和理解现实环境，其在智能交通、智慧城市、自动驾驶、智能养老等智能化产业中有着十分广阔的应用前景。视觉语言导航、目标重识别、多相机多目标跟踪和目标驱动视觉导航是视觉感知的四种主要任务，由于任务场景的限制，这些任务共同面临着训练数据规模小和缺乏数据标注的问题。小样本学习方法是解决该问题的重要途径之一，本文从小样本学习的角度系统深入地研究了这四种视觉感知任务中的关键问题，并提出了解决以上问题的方法。主要研究工作和成果如下: (1)在视觉语言导航任务中，针对智能体导航模型泛化能力差的问题，本文提出了一种小样本环境间数据增强方法，通过引入新的训练数据来提升模型的泛化能力。该方法以随机环境混合的方式，将已有训练场景分割后重新交叉混合，生成具有新的结构、路径和自然语言指令的增强数据。通过使用图论来分析和分割场景，该方法可以在不需要学习的情况下快速生成大量新的真实房间结构样本。将该方法应用于主流的导航模型中，通过实验表明了该方法可以显著提升这些模型在已知环境和未知环境中的导航性能。此外，消融实验证明了环境间数据增强与其他数据增强方法相比具有更好地降低泛化误差的能力。 (2)在目标重识别任务中，针对相机图像风格多变的问题，本文提出了一种基于生成对抗网络的小样本图像统一风格迁移方法。该方法使用输入数据预处理的方式，在训练和测试时将输入图像迁移为统一风格，从而降低模型解决问题的复杂度。为保证生成图像的风格稳定统一，本文设计了带有风格注意力模块的UnityGAN生成对抗网络。最后，通过基于多种基线模型的实验表明，该方法能够高效稳定地生成统一风格的图像并显著提升原有模型的性能，验证了方法的有效性与可扩展性。 (3)在多相机多目标跟踪任务中，针对相机间小轨迹匹配困难的问题，本文提出了一种小样本相机间自适应匹配策略。该方法结合强化学习和模仿学习来预测目标所在相机集合，使用该集合设计了自适应匹配策略，用于替代手工策略来指导相机间小轨迹的匹配。同时，为了广泛的场景适应性，本文为该方法设计了直接训练和自我训练两种方式。实验表明，提出的方法足以替代人工策略，能够缩小匹配范围，加快匹配速度，消除错误匹配，最终提高整个多相机多目标跟踪系统的性能。此外，该方法以CVPR2021举办的城市规模多相机车辆跟踪比赛为适应性验证场景，在232支参赛队伍中取得了冠军成绩。 (4)在目标驱动视觉导航任务中，针对导航模型对目标方位感知能力差的问题，提出了一种小样本位置概率图多任务学习方法。该方法通过为模型加入新颖的位置模块和位置预测子任务，用多任务学习的方式优化模型参数，增强智能体对目标方位的感知能力。对比实验表明了该方法在使用更少先验知识的情况下，比起主流方法取得了更好的导航性能，消融实验验证了直接预测目标位置概率图能够增强模型方位感知能力。此外，该方法以CVPR2021举办的目标驱动社交导航比赛为适应性验证场景，在12支参赛队伍中取得了亚军成绩。

关键词

视觉感知任务/小样本学习/数据增强/生成对抗网络/自适应匹配/位置概率图/多任务学习

引用本文复制引用

授予学位

博士

学科专业

计算机软件与理论

导师

沈一栋

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航