摘要
6D位姿估计是机器人理解作业场景的关键技术,然而,由于光照变化、遮挡甚至物体之间的截断等带来的应用场景复杂性,精确的6D位姿估计仍然是一个具有挑战性的问题。传统位姿估计方法通过提取目标物体手工特征进行对应关系的建立或者模板匹配,进而完成位姿的求解,但是这样的方法仅适用于含有丰富纹理的目标物体且鲁棒性较差。由于深度学习在目标检测领域表现优异,研究者引入了一系列基于深度学习的神经网络来估计目标物体6D位姿,与传统方法相比,这些方法具有更好的抵御遮挡能力、耗时较短、准确率更高。 基于此,本文针对复杂场景下目标物体6D位姿估计,在深度学习框架下设计了新颖的基于注意力的多尺度位姿估计网络和基于实例中心聚类的实例分割模块,实现了高效准确的目标物体位姿估计,并应用于机械臂抓取任务。主要研究内容如下: (1)介绍6D位姿估计的研究意义和背景,对基于深度学习的6D位姿估计算法进行深入调研,根据输入数据类型将已有方法分为基于RGB数据的方法和基于RGB-D数据的方法并进行分析和探讨。 (2)采用RGB-D数据作为输入,设计基于注意力的多尺度位姿估计网络,该网络利用像素级特征注意力机制高效地提取和融合输入数据中的颜色特征和几何特征,并采用多尺度网络提取利用目标物体的上下文信息,高效准确地完成目标物体6D位姿估计。该网络在公共的Linemod和YCB-Video数据集上表现出最先进的性能。 (3)针对现有位姿估计网络在外表相似尺寸不同的实例中表现不佳的问题,提出基于实例中心聚类的实例分割模块,完成精准的实例分割以提供正确的目标物体信息进行位姿估计,实现目标物体6D位姿估计精度的提升。实验表明,实例分割模块的加入,使位姿估计网络在Linemod和YCB-Video数据集上的准确率得到了大幅度的提升。 (4)为验证位姿估计网络在实际生产生活场景中的实用性,搭建了机械臂抓取实验系统,完成系统中机械臂、RGB-D相机、末端执行器的选型,进行相机标定与手眼标定,使得相机坐标系与机械臂各坐标系能相互转换,即机械臂系统能采用位姿估计网络输出的目标物体6D位姿完成抓取任务。