基于音视频多模态的视频说话人检测算法研究

晏思雨¹

扫码查看

作者信息

1. 深圳大学
折叠

摘要

随着多媒体技术的快速发展，视频在日常生活和工作中应用越来越广泛，但在应用与实际中也存在着诸多挑战，对视频中说话人的准确检测与识别对提升交互体验具有重要意义。针对视频说话人检测问题，本文主要研究内容如下： 1）针对视频说话人检测中存在的复杂背景噪声、多模态数据融合固定化处理等问题，本文提出了一种基于音视频多模态的视频说话人检测算法CMASD。在该模型中，首先在输入端自动生成视频帧的差分图取代传统的RGB图片，然后在编码器部分引入了基于双重注意力机制的多模态融合方法，在中间卷积层进行部分融合后输入到基于Transformer多头注意力机制的音视频融合层进一步融合；引入了随机比例掩码标注策略和音视频异步化数据增强方法，提高模型的泛化能力；引入了加权损失函数，减缓了数据样本不平衡的问题。实验结果表明， CMASD在公开数据集AVA上的mAP达93.8%，在自标注测试数据集上AUC为95.7%，ACC为91.0%，优于ASDNet和TalkNet等模型。 2）针对实际应用中对轻量级模型的需求，通过优化模型结构和降低计算复杂度，本文进一步提出了轻量级多模态融合说话人检测算法Tiny-CMASD，以轻量化的MobileNetv2作为音视频编码器的主干网络，结合自注意力机制实现音视频特征的深度融合。Tiny-CMASD在保持高性能的同时，模型大小和计算量更小，更适合在实际场景中进行部署。实验结果表明，Tiny-CMASD的参数量为5M，计算量为0.05G FLOPs，在GPU上达到实时检测效果，在AVA数据集上的mAP为90.6%，自标注测试集上ACC和AUC分别为88.4%和93.4%。 3）此外，本文将Tiny-CMASD应用到实际场景中，实现了一种更简单、更快、更高效的端到端跨模态AI动态临场感增强算法的应用，部署在电视机终端，将场景检测、人脸检测、人脸跟踪和说话人检测多步骤的任务整合到单一模型中，简化了处理流程，提升了检测精度和效率。针对临场感增强算法应用的延时问题，提出了动态滑动窗口策略，减少了不必要的计算开销，从而有效降低应用延时，对于30 FPS的视频输入，整体延时不到0.5秒，达到实时效果。

关键词

视频说话人检测/多模态信息融合/轻量级网络/动态滑动窗口

引用本文复制引用

授予学位

硕士

学科专业

新一代电子信息技术（含量子信息技术等）

导师

杨亚涛

学位年度

2024

学位授予单位

深圳大学

语种

中文

中图分类号

段落导航