基于主动立体视觉的机械臂感知技术研究

刘源¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

近些年，随着人工智能技术的快速发展，机器人和视觉技术的结合成为了学术领域的研究热点。视觉技术可以提高机器人工作的自主性和准确性，拓展了机器人的工作空间和场景，是未来发展的重要方向。主动立体相机是主动式投影和双目相机的结合，具有抗干扰能力强、精度高、实时性强等优点。主动立体视觉技术包括立体信息获取技术和图像信息解译技术，可以为在动态场景中工作的机械臂系统提供目标的类别信息、距离信息、位置信息和姿态信息等，符合机械臂抓取任务的需求。主动立体视觉技术不仅可以应用在工业中，支持工业机械臂完成各种生产任务。还可应用于太空中，辅助空间机械臂完成在轨组建和空间碎片清理等重要任务。发展和研究基于主动立体视觉的机械臂感知技术具有重要的研究意义和应用价值。本文以实现主动立体视觉的智能化感知为目标，以非结构化场景的机械臂应用为背景，围绕立体匹配算法、图像分割算法和位姿估计算法等关键技术，开展了理论分析，方法研究，算法设计，实验验证与分析等工作，主要研究内容如下: (1)为了生成密集深度图以获取距离信息，针对立体匹配算法在无纹理区域和噪声和不均衡光照影响下的错误匹配问题，提出了一种基于分层循环神经网络的主动立体匹配算法。以双目图像为输入，经特征提取、局部特征注意力、相关性成本积和视差分层循环四个阶段，生成视差图。所设计的特征提取器通过多分辨率残差连接，增强暗弱像素匹配效果。将局部注意力机制与局部窗口特征图结合，增强了特征的位置相关性，提升了算法对光照与纹理变化的鲁棒性。最后，提出迭代对比度重建损失，克服了深度与像素强度的错误依赖。在公开数据集和主动立体图像的实验表明，算法具有先进的匹配效果，能够生成准确精细的视差图。 (2)为了准确分割图像中的目标以获取位置信息，针对编码器-解码器语义分割算法的网格伪影、不均衡光照与相似结构引起的错误分割问题，提出了一种基于多尺度扩张卷积神经网络的图像分割算法。以单帧RGB图像为输入，采用“编码器—注意力—解码器”的语义分割架构，生成目标分割掩膜图。采用一种扩张卷积残差网络作为编码器，减轻网格伪影的影响，提升噪声图像的分割精度。其次，引入通道注意力机制，通过挤压和激励模块重新校准特征响应，同时关注网络中的深层特征和浅层特征两条支路，提升学习效果。最后，设计了并联空洞金字塔池化结构，进一步增强上下文信息，提升多尺度目标分割效果。在公开数据集和自制数据集的实验表明，算法优于同类算法，能分割出更加完整清晰的目标掩膜。 (3)为了准确获取目标姿态信息，针对如何提升位姿估计算法准确度和计算速度，更好地利用颜色特征与几何特征，提出了一种基于点云分形融合神经网络的刚体6D位姿估计算法。以单帧RGB-D图像为输入，采用异源信息密集融合架构，通过颜色特征提取器、点云特征提取器、像素级密集融合网络和位姿细化四个阶段，输出目标位姿估计参数。使用多尺度扩张卷积神经网络为密集融合结构嵌入颜色特征，适应多尺度目标与复杂场景。所设计的点云特征提取器，有效提取局部特征和全局特征，增强了局部几何信息的学习。最后，设计了点云分形金字塔结构，将不同疏密程度的多分辨率点云与颜色特征密集融合，学习目标更为关键的骨干结构，并提升位姿细化效果。在公开的位姿估计数据集实验表明,算法具有较高的准确度，在推理时能够快速地估计目标位姿。本文针对基于主动立体视觉的机械臂系统在感知过程中需要的信息和算法存在的问题，依照任务线索和逻辑顺序，对关键视觉算法进行了深入研究和改进，取得了先进的效果。研究成果不仅在理论层面具有启发意义，还具有一定实际应用前景。

关键词

机械臂/主动立体视觉/深度学习/图像分割/位姿估计

引用本文复制引用

授予学位

博士

学科专业

机械制造及其自动化

导师

王晶；朱明

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航