基于多模态的视频图像目标定位方法研究

蒋逸如¹

扫码查看

作者信息

1. 上海海事大学
折叠

摘要

视频图像目标定位常用于车辆定位、交通管理和公共场所安全监控等领域。但是实际应用中，受视频图像噪声干扰、目标尺度变化、运动模糊等因素影响，视频图像目标定位的结果容易出现错检、漏检等问题，从而造成不同程度上的安全风险或财产损失。目前，视频图像目标定位作为一种共性基础应用技术，已广泛覆盖于不同视觉应用领域，如何实现有效的视频图像目标定位是视觉领域研究的热点之一。为此，本文主要对图像目标定位中的多模态特征融合和有效的视频目标定位初始化方法进行研究，其主要研究工作包括：（1）针对图像目标定位中的多模态特征融合问题，本文提出了一种基于注意力机制的多模态特征融合方法，能够对文本特征和图像特征进行概率加权融合，使图像目标定位中的多模态表示更加准确和全面。此外，本文还研究了其他特征融合方法(如拼接和加和等)，并与本文提出概率加权特征融合方法进行了对比和分析。最后，在公开数据集COCO2017和LVIS上进行了实验验证，实验结果显示，本文提出的图像目标定位方法效果好，概率加权融合的精度高于其他常用的特征融合方法。（2）为了实现视频图像目标定位，在基于注意力机制的多模态特征概率加权融合的图像目标定位基础上，本文提出了一种图像目标定位初始化的视频目标定位方法。首先，使用SIFT特征进行特征提取，通过聚类得到图像目标定位，定位结果作为视频目标的初始位置；接着，用卡尔曼滤波缩小预测的视频目标位置和实际的目标位置之间的误差，获得更准确的视频目标定位结果；最后，在视频目标定位的置信度下降时，使用图像目标定位结果初始化视频目标。为了评估所提出的视频目标定位方法，本文将提出的视频目标定位方法与其他先进的视频目标定位模型进行了对比分析。在公开的视频图像数据集(TLP)上的实验结果显示，本文所提出的视频目标定位算法具有更好的召回率和定位精度。

关键词

视频图像/目标定位/多模态特征融合/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

韩德志

学位年度

2023

学位授予单位

上海海事大学

语种

中文

中图分类号

段落导航