基于双目立体视觉与深度学习的三维重建研究

徐杰¹

扫码查看

作者信息

1. 华中科技大学
折叠

摘要

双目立体视觉是通过模拟人的眼睛对目标物体的感知来获取目标物体的三维深度信息。目前双目立体视觉技术在机器视觉领域发展已经成为最为关注的方向，在自动驾驶、无损探伤以及无人机飞行等领域已经得到了大量的应用。立体匹配是双目视觉技术的重要环节，传统的稠密立体匹配算法具有计算速度慢，视差精度低的特点，因此很难适用于实际场景，使用稀疏立体匹配的方法虽然计算速度快，但其计算精度差，容易受到噪声干扰。为了解决上述问题，本文将卷积神经网络模型CNN(Convolutional Neural Network, CNN)应用于立体匹配技术中，以实现对真实场景中目标物体的高精度和高效率的三维重建。本文首先对现有的相机标定技术进行了综合对比与分析，然后选取了具有高准确性的张氏标定法对图像中的特征点进行提取，并结合Matlab软件和Opencv4.0机器视觉开发库以获取双目相机的内参矩阵、畸变系数矩阵和平移旋转向量等参数，用于后续的立体匹配和三维重建等技术。针对传统立体匹配技术计算精度低和实时性差的问题，本文在初始匹配代价计算阶段设计了高效的轻量级卷积神经网络模型，通过堆叠多个卷积层提取不同尺度的特征图以实现更精准的初始匹配代价计算，并利用KITTI2012数据库中的标准图像序列对所设计的网络模型参数进行迭代优化，有效地改善了真实场景图像序列的视差估计精度。相比于所列举的对比算法，本文方法估计精度提升了28%，运行时间小于1秒。为进一步优化初始视差估计精度低的问题，本文通过利用基于十字交叉的半全局匹配算法进行代价聚合，并对遮挡问题引起的匹配点缺失问题，利用了左右一致性算法对聚合后的代价进行细化，以计算更精准的视差值。此外，针对真实场景中噪声等因素导致的误匹配问题，进一步对视差图进行平滑滤波操作，以改善图像边缘处的视差精度。相比于所列举的对比算法，本文方法估计精度提升了35%，运行时间达到秒级。最后，本文根据三角测量原理，利用所计算的高精度、强鲁棒性的视差图对真实场景中目标物体进行三维重建。本文利用KITTI和Middlebury等多个标准数据库对本文方法与其他较经典算法进行了综合实验对比与分析，实验结果表明将卷积神经网络模型引入到立体匹配计算技术中，能够有效地提高匹配算法的准确性，以满足双目立体视觉技术对真实场景中目标物体三维重建的实时性要求。

关键词

双目立体视觉/立体匹配/卷积神经网络/三维重建

引用本文复制引用

授予学位

硕士

学科专业

动力工程

导师

李顶根

学位年度

2020

学位授予单位

华中科技大学

语种

中文

中图分类号

段落导航