基于深度学习的多视点立体视觉三维场景重建算法研究

林瑞¹

扫码查看

作者信息

1. 北京工业大学
折叠

摘要

高精度的三维场景重建对于许多应用至关重要，如城市三维地图、古迹复现、自动驾驶和增强现实等。近年来，深度学习的不断发展以及大量多视角立体匹配数据集的发布，为高精度三维重建方法带来了新的思路。目前较为常见的基于深度学习的方法是多视角立体视觉(Multi-view Stereo，MVS)三维重建。该方法旨在给定两幅以上的图像和对应的相机参数的情况下，通过多视角深度估计网络生成每一幅输入图像所对应的深度图，然后再使用传统的深度图融合算法将所有的深度图融合成一个完整的场景点云。虽然基于深度学习的深度图融合方法取得了很好的进展，但存在以下局限性:(1)在特征提取和融合时，没有很好地利用图像的浅层特征，而浅层特征保留了高分辨率的结构信息，对浅层特征的忽略将导致特征尺度的单一化;(2)在深度图细化时，只考虑了参考图像本身对深度图细化的效果，忽略了相邻图像信息对预测深度图的贡献，一定程度上弱化了相邻视点信息的作用。为了解决上述这些问题，本文从不同角度对基于深度图融合的方法进行改进。具体研究内容如下: 其一，提出了多尺度特征融合网络。针对输入图像引入不同尺度的特征，本质上是从不同尺度的感受野去提取特征，增强基于不同区域的不同信息间上下文信息的聚合，有助于神经网络提取更具表现力的特征，能够进一步提高神经网络对图像的深度预测的能力。最终模型重建精度的提升验证了本特征融合方法所带来的特征质量的改进。其二，提出了基于帧间相关性的深度图细化方法。针对预测得到的各视点图像的深度图，利用相邻图像间的深度信息约束来细化参考图像的深度图。实验结果表明，改进之后的方法提高了场景三维点云重建的完整性。基于以上两方面的工作，我们在公开数据集DTU数据集上进行实验。实验结果表明，两种改进方案都能够提高三维重建的质量，能够很好的重建目标场景缺失部分和被遮挡区域，从而更完整地恢复场景的三维信息。

关键词

立体视觉/三维重建/深度学习/特征融合/深度图细化

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

孔德慧

学位年度

2021

学位授予单位

北京工业大学

语种

中文

中图分类号

段落导航