基于超图和多模态融合的三维物体识别及检索

黄晓婷¹

扫码查看

作者信息

1. 桂林电子科技大学
折叠

摘要

三维物体的识别和检索是计算机视觉领域的重要研究方向，在自动驾驶、虚拟现实等领域具有广泛的应用。三维物体识别和检索的核心在于提取有效的物体特征表示。针对三维物体不同的数据表现形式，各种深度学习模型被提出并广泛使用，如基于多视图、点云等单模态数据的模型。然而，单模态方法囿于特定的某种模态，感知范围有限，在转换过程中可能会遗漏物体的某些结构信息。因此，有必要从多模态数据中学习互补信息，改善单一模态数据中存在的特征缺失问题。此外，探索和利用数据样本之间的底层高阶联系有助于提升物体识别及检索精度，但现有方法大多只关注提取物体自身的特征表示，忽略了物体特征间的相似关系。针对这些问题，本文围绕多模态融合，利用超图能够建模数据间复杂高阶关系的优势，基于超图学习技术，对三维物体的识别及检索展开研究。本文的主要研究工作总结为以下两个方面：（1）充分利用点云和网格数据的信息互补能力以及深度可分离卷积适合处理多模态数据的优势，提出超图深度可分离卷积网络融合点云和网格数据用于形状检索。首先，使用预训练网络分别提取点云和网格数据的初始特征表示。其次，对特征进行通道混合并构造相应的超图以建模高阶关系。再使用提出的超图深度可分离卷积提取有鉴别力的特征信息并利用其结构特点整合多模态数据，最后利用全连接网络进行特征的充分融合，得到用于检索任务的形状描述符。在网络训练过程中，提出由交叉熵损失函数和均方差损失函数结合的损失函数来促进多模态数据的融合。在两个三维基准数据集上的实验结果证明了所提方法融合多模态数据、提高检索精度的有效性。（2）充分利用多视图和点云模态在数据表示和处理方面的优势，同时为适应小规模样本学习并加快网络的收敛速度，提出一种联合多视图和点云数据的多尺度超图神经网络，用于三维物体的识别与检索。首先，使用预训练网络分别提取多视图和点云初始特征。其次，计算多视图和点云模态间的关系分数并根据关系分数增强多视图特征表示。再将点云和多视图增强表示输入到由三分支网络构成的多尺度特征提取模块中，根据输入数据构造超图并使用超边卷积组建超图深度可分离卷积模块，以便归纳地学习高阶特征信息并适应小规模样本学习，同时，使用长短期记忆机制学习多视图序列之间的时空联系，两者配合多模态全局特征提取分支，构造感知范围更大的特征表示。最后，将三分支特征输入到特征融合模块进行充分融合，得到更具鲁棒性和表征性的形状描述符。使用小批量数据迭代策略训练模型，在ModelNet40数据集上的实验结果证明了所提方法的有效性。

关键词

三维物体识别/形状检索/多模态融合/超图

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

王俊义

学位年度

2023

学位授予单位

桂林电子科技大学

语种

中文

中图分类号

段落导航