基于交替注意力机制的光流估计研究

方桂标¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

光流是指图像序列中同一场景或物体在不同帧之间的运动状态。由于光流包含了场景中所有物体的速度和方向信息，所以光流不仅可以估计目标物体相对于相机的运动状态，也可以估计运动物体的轮廓信息，进而获得场景的结构信息。因此，光流估计作为计算机视觉领域中的一个经典问题和基本上游任务，已被广泛应用于动作识别、目标跟踪、移动机器人避障等下游任务。尽管光流已经有七十多年的研究历史，但由于实际场景的复杂性，光流估计研究仍然存在一些挑战，比如大位移、遮挡估计和弱纹理区域等。在传统的特征关联中，代价量是建立对应关系的关键，它存储了源图像的像素点与目标帧中的对应像素点的匹配代价。然而，以往大多数基于代价量的光流估计方法通常使用浅层的卷积神经网络提取图像的局部特征，然后直接将局部特征进行内积运算来构建代价量，这导致这些方法在大位移情形和遮挡区域下可能会得到歧义匹配关系，进而光流估计出错。此外，由于通过卷积神经网络提取到的图像特征没有考虑位置信息，无法为建立源像素点与目标像素点之间的关系提供可靠的位置线索，进而导致这些方法在弱纹理、遮挡等模糊歧义区域的性能较差。为了解决这些挑战性难点，本文设计了一个基于交替注意力机制的特征关联Transformer框架（FeatureCorrelationTransformer，FCTR），通过FCTR获取全像素对应关系建立关联矩阵，以替代传统的代价量。具体来说，通过使用Transformer框架来扩大提取全局上下文信息的感受野，这有助于处理大位移情形下的光流估计。而其中自注意力和交叉注意力交替分布的交替注意力层使得FCTR能够学习自差异性和交叉相似性的关联先验信息，为遮挡区域的运动推理提供位置线索。与之前的工作相比，本文使用添加位置嵌入的图像特征作为语境特征并移除语境网络，位置上下文信息能更好地聚合弱纹理区域的模糊运动边界，并大大减少了模型的参数量。为了提高模型的训练效率和泛化能力，本文还在预训练阶段中引入了具有指数权重系数的平滑L1序列损失函数。为了验证本文提出的FCTR的有效性，本文首先在两个大型数据集上预训练FCTR模型，然后将其微调到两个基准数据集上，并进行了包含多个评价指标的对比实验。根据实验结果显示，相较于其他光流方法，FCTR具有更好的性能，尤其是在大位移、遮挡、弱纹理等模糊歧义区域上的准确性、高效性和鲁棒性。此外，本文还将MPI-Sintel和KITTI-2015基准上的测试结果提交至相应的公开排行榜，FCTR在两个榜单均位列前茅，并在KITTI-2015基准的前景区域中超过所有已发表的光流和场景流方法，达到当前最好结果。

关键词

图像序列/光流估计/交替注意力机制/代价量/歧义匹配

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

杨振国

学位年度

2023

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航