首页|基于多视角的3D物体识别研究

基于多视角的3D物体识别研究

祁少华

基于多视角的3D物体识别研究

祁少华1
扫码查看

作者信息

  • 1. 青岛大学
  • 折叠

摘要

人工智能如今正在快车道上飞速发展。随着机器人、自动驾驶等领域对三维(Three-dimensional,3D)物体识别需求的增加,3D物体识别方法层出不穷。凭借简单、易用、高效等优势,基于多视角的3D物体识别方法脱颖而出,成为3D物体识别领域表现最好的方法。其中基于分组机制的方法凭借考虑多视图之间的联系和区别,实现了不错的性能。但现有基于分组机制的多视角3D物体识别方法,其模型设计存在缺陷,缺乏可解释性,不能合理地对多视图进行分组。且现有方法未能充分利用多视图之间的区别,忽略了多视图之间的区别的重要作用。另外,分组机制的设计使得方法的模块较多,网络结构较复杂,也不利于现实场景中的应用落地。基于上述问题,本文利用L2范数、Sigmoid激活函数、ReLU激活函数、e指数函数等函数性质,视觉Transformer,以及多视图性质,提出三种新的多视角3D物体识别方法。提出的方法分别从分组模块、特征提取、特征融合,以及简化网络等角度入手,实现提升多视角3D物体识别精度的目的。 (1)多视角3D物体识别双加权卷积神经网络(DoubleWeightedConvolutionNeuralNetwork,DWCNN网络)。目前基于分组机制的多视角3D物体识别方法,其分组模块的设计存在缺陷,不够合理和缺乏可解释性。针对此问题,本文提出巧妙利用L2范数和Sigmoid激活函数性质设计的L2-Sigmoid(L2-S)分组模块,实现对多视图更合理的分组,解决分组模块缺乏可解释性的问题。并将L2-S分组模块与设计的双加权融合模块相结合提出新的方法:DWCNN网络。该方法通过L2-S分组模块能够实现对多视图更合理的分组,实现不错的性能。 (2)多视角3D物体识别双E分组SwinTransformer(DoubleE-groupingSwinTrans-former,DEST网络)。针对将卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于特征提取阶段时存在的缺陷,考虑使用目前非常热门的视觉Transformer方法中的SwinTransformer作为多视角3D物体识别方法的骨干网络。但视觉Transformer由于缺少特征融合模块,普遍不能够直接应用于多视角3D物体识别任务,因此设计了新的分组融合模块。利用L2范数和ReLU激活函数性质而设计的L2-ReLU(LR)分组模块,是L2-S分组模块的升级版;利用e指数函数性质新设计的双E融合模块,在多视图特征融合阶段充分强调了视图之间的区别的重要作用,解决了现有方法没能充分利用多视图之间的区别的问题。LR分组模块与双E融合模块的组合称为LR-双E分组融合模块,其有效解决SwinTransformer不能直接应用于多视角3D物体识别任务的问题。本文基于LR-双E分组融合模块,提出新的方法:DEST网络。设计的LR-双E分组融合模块使得性能强劲的通用骨干SwinTransformer能够应用于多视角3D物体识别任务,并使得双E分组SwinTransformer实现不错的性能。 (3)多视角3D物体识别E融合卷积神经网络(E-fusionConvolutionNeuralNetwork,EFCNN网络)。针对由于分组机制的存在使得方法模块较多,网络较复杂,不利于应用落地的问题,为简化多视角3D物体识别方法,提出EFCNN网络。该网络考虑多视图的联系和区别这两种最直观的性质,只包含两个重要模块,即双向长短时记忆网络(Bi-directionalLongShort-TermMemory,Bi-LSTM)和E融合模块。并且引用谱定理证明多视图之间的区别的重要作用。该网络的两个模块分别充分利用多视图之间的联系和区别,实现多视角3D物体识别任务上非常好的性能,并且也是现有性能很好的方法中最简单的方法。 (4)在实验部分,为了展示本文提出的多视角3D物体识别方法的有效性,将本文方法与经典的、先进的、最新的方法进行大量对比。充分的实验表明,本文提出的多视角3D物体识别方法在主流的公共数据集ModelNet40和ModelNet10上均能实现非常不错的性能。其中本文提出的EFCNN网络,类别精度(ClassificationAccu-racy)能够达到99.35%,实例精度(InstanceAccuracy)能够达到99.34%,检索平均精度均值(MeanAveragePrecision,mAP)更是达到99.18%。除此以外,为了展示本文设计的模块的有效性,所有方法的实验部分均进行充分的消融实验以验证模块的性能。最后,利用EFCNN网络在数据集每一类上的表现,分析影响多视角3D物体识别方法性能进一步提升的原因。

关键词

深度学习/物体识别/3D物体识别/分组机制/视觉Transformer

引用本文复制引用

授予学位

硕士

学科专业

信号与信息处理

导师

杨国为

学位年度

2022

学位授予单位

青岛大学

语种

中文

中图分类号

TP
段落导航相关论文