基于多视角的3D物体识别研究

祁少华¹

扫码查看

作者信息

1. 青岛大学
折叠

摘要

人工智能如今正在快车道上飞速发展。随着机器人、自动驾驶等领域对三维(Three-dimensional,3D)物体识别需求的增加，3D物体识别方法层出不穷。凭借简单、易用、高效等优势，基于多视角的3D物体识别方法脱颖而出，成为3D物体识别领域表现最好的方法。其中基于分组机制的方法凭借考虑多视图之间的联系和区别，实现了不错的性能。但现有基于分组机制的多视角3D物体识别方法，其模型设计存在缺陷，缺乏可解释性，不能合理地对多视图进行分组。且现有方法未能充分利用多视图之间的区别，忽略了多视图之间的区别的重要作用。另外，分组机制的设计使得方法的模块较多，网络结构较复杂，也不利于现实场景中的应用落地。基于上述问题，本文利用L2范数、Sigmoid激活函数、ReLU激活函数、e指数函数等函数性质，视觉Transformer，以及多视图性质，提出三种新的多视角3D物体识别方法。提出的方法分别从分组模块、特征提取、特征融合，以及简化网络等角度入手，实现提升多视角3D物体识别精度的目的。 (1)多视角3D物体识别双加权卷积神经网络(DoubleWeightedConvolutionNeuralNetwork,DWCNN网络)。目前基于分组机制的多视角3D物体识别方法，其分组模块的设计存在缺陷，不够合理和缺乏可解释性。针对此问题，本文提出巧妙利用L2范数和Sigmoid激活函数性质设计的L2-Sigmoid(L2-S)分组模块，实现对多视图更合理的分组，解决分组模块缺乏可解释性的问题。并将L2-S分组模块与设计的双加权融合模块相结合提出新的方法：DWCNN网络。该方法通过L2-S分组模块能够实现对多视图更合理的分组，实现不错的性能。 (2)多视角3D物体识别双E分组SwinTransformer(DoubleE-groupingSwinTrans-former,DEST网络)。针对将卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于特征提取阶段时存在的缺陷，考虑使用目前非常热门的视觉Transformer方法中的SwinTransformer作为多视角3D物体识别方法的骨干网络。但视觉Transformer由于缺少特征融合模块，普遍不能够直接应用于多视角3D物体识别任务，因此设计了新的分组融合模块。利用L2范数和ReLU激活函数性质而设计的L2-ReLU(LR)分组模块，是L2-S分组模块的升级版；利用e指数函数性质新设计的双E融合模块，在多视图特征融合阶段充分强调了视图之间的区别的重要作用，解决了现有方法没能充分利用多视图之间的区别的问题。LR分组模块与双E融合模块的组合称为LR-双E分组融合模块，其有效解决SwinTransformer不能直接应用于多视角3D物体识别任务的问题。本文基于LR-双E分组融合模块，提出新的方法：DEST网络。设计的LR-双E分组融合模块使得性能强劲的通用骨干SwinTransformer能够应用于多视角3D物体识别任务，并使得双E分组SwinTransformer实现不错的性能。 (3)多视角3D物体识别E融合卷积神经网络(E-fusionConvolutionNeuralNetwork,EFCNN网络)。针对由于分组机制的存在使得方法模块较多，网络较复杂，不利于应用落地的问题，为简化多视角3D物体识别方法，提出EFCNN网络。该网络考虑多视图的联系和区别这两种最直观的性质，只包含两个重要模块，即双向长短时记忆网络(Bi-directionalLongShort-TermMemory，Bi-LSTM)和E融合模块。并且引用谱定理证明多视图之间的区别的重要作用。该网络的两个模块分别充分利用多视图之间的联系和区别，实现多视角3D物体识别任务上非常好的性能，并且也是现有性能很好的方法中最简单的方法。 (4)在实验部分，为了展示本文提出的多视角3D物体识别方法的有效性，将本文方法与经典的、先进的、最新的方法进行大量对比。充分的实验表明，本文提出的多视角3D物体识别方法在主流的公共数据集ModelNet40和ModelNet10上均能实现非常不错的性能。其中本文提出的EFCNN网络，类别精度(ClassificationAccu-racy)能够达到99.35%，实例精度(InstanceAccuracy)能够达到99.34%，检索平均精度均值(MeanAveragePrecision,mAP)更是达到99.18%。除此以外，为了展示本文设计的模块的有效性，所有方法的实验部分均进行充分的消融实验以验证模块的性能。最后，利用EFCNN网络在数据集每一类上的表现，分析影响多视角3D物体识别方法性能进一步提升的原因。

关键词

深度学习/物体识别/3D物体识别/分组机制/视觉Transformer

引用本文复制引用

授予学位

硕士

学科专业

信号与信息处理

导师

杨国为

学位年度

2022

学位授予单位

青岛大学

语种

中文

中图分类号

段落导航