摘要
实例分割任务是计算机视觉领域的重点研究任务之一,主要目标是从像素层面区分识别图像,指定类别标签,并对场景中的不同个体进行区分。根据输入数据不同,实例分割技术可分为2D图像实例分割和3D点云实例分割。 随着深度学习技术和卷积神经网络的不断进步,2D图像实例分割任务取得了良好的发展,并开始尝试将其应用于现实世界的各项任务中。然而,在实际应用中,需要2D图像实例分割方法具有较高的处理速度,当前主流算法在处理速度上还无法满足实时性需求。如何提升2D图像实例分割算法的处理速度,是本文的研究内容之一。深度学习的发展同样促进了三维场景理解任务的发展,3D点云数据作为三维场景信息的表征格式之一,因其获取成本低、表示方式简单等优点,逐渐成为三维场景理解任务的主要数据表示方法。与此同时,一些研究人员开始思考如何借鉴2D图像实例分割领域的成功经验,对3D点云进行实例分割。然而点云数据是稀疏的,直接使用二维图像处理中的密集卷积操作必然造成严重的资源浪费。如何设计良好的特征提取方案,对3D点云场景进行特征提取,完成实例分割,是本文的另一项研究内容。 本文主要研究2D图像和3D点云实例分割方法,针对上述问题,设计更加优秀的实例分割任务算法。本文的研究内容如下: (1)在2D图像实例分割任务中,针对过往算法处理速度慢,难以实时处理场景信息等问题,本文提出了一种基于锚点的2D图像单阶段实时实例分割算法,借助卷积神经网络提取2D输入图像的特征,使用特征金字塔算法得到多尺度特征图,最后借助简单的掩码预测分支直接处理特征,并得到最终的实例分割结果,提升实例分割算法的处理速度。 (2)在3D点云实例分割任务中,点云通常是无序且稀疏的,难以直接使用2D图像卷积方案的相关处理思路。针对点云无序性的特点,本文提出一种基于多尺度特征提取网络的3D点云语义实例分割算法,以“编码器-解码器”形式构建特征提取网络,使其能在多个尺度下提取并编码局部特征信息,通过多尺度融合操作,提升点云特征提取网络的表征能力;对于分割任务,该算法将特征处理划分为两个并行的子任务,用于分别生成语义特征和实例嵌入,并将语义特征和实例嵌入的信息相互融合,提升实例分割精度。 (3)在3D点云实例分割任务中,待处理的点云场景通常较为庞大,基于点的方法将点对间的距离作为度量准则,当场景点数增多时,此类方法会显著提升计算开销;由于点云稀疏性的特点,传统密集卷积方法会使物体的稀疏几何特征逐渐丧失,因此需要设计更加良好的特征提取方案。针对上述问题,本文提出一种基于稀疏卷积和提案生成的3D点云实例分割算法,借助稀疏卷积方法,构建多尺度特征提取网络,得到输入语义预测分数和偏移向量;为提升实例分割算法的性能,降低误判,算法借助前一步的语义预测分数和偏移向量,生成实例提案,再将实例提案输入到另一个小型特征处理网络中,最终输出精准的实例标签。