首页|基于音视频多模态的视频说话人检测算法研究

基于音视频多模态的视频说话人检测算法研究

晏思雨

基于音视频多模态的视频说话人检测算法研究

晏思雨1
扫码查看

作者信息

  • 1. 深圳大学
  • 折叠

摘要

随着多媒体技术的快速发展,视频在日常生活和工作中应用越来越广泛,但在应用与实际中也存在着诸多挑战,对视频中说话人的准确检测与识别对提升交互体验具有重要意义。针对视频说话人检测问题,本文主要研究内容如下: 1)针对视频说话人检测中存在的复杂背景噪声、多模态数据融合固定化处理等问题,本文提出了一种基于音视频多模态的视频说话人检测算法CMASD。在该模型中,首先在输入端自动生成视频帧的差分图取代传统的RGB图片,然后在编码器部分引入了基于双重注意力机制的多模态融合方法,在中间卷积层进行部分融合后输入到基于Transformer多头注意力机制的音视频融合层进一步融合;引入了随机比例掩码标注策略和音视频异步化数据增强方法,提高模型的泛化能力;引入了加权损失函数,减缓了数据样本不平衡的问题。实验结果表明, CMASD在公开数据集AVA上的mAP达93.8%,在自标注测试数据集上AUC为95.7%,ACC为91.0%,优于ASDNet和TalkNet等模型。 2)针对实际应用中对轻量级模型的需求,通过优化模型结构和降低计算复杂度,本文进一步提出了轻量级多模态融合说话人检测算法Tiny-CMASD,以轻量化的MobileNetv2作为音视频编码器的主干网络,结合自注意力机制实现音视频特征的深度融合。Tiny-CMASD在保持高性能的同时,模型大小和计算量更小,更适合在实际场景中进行部署。实验结果表明,Tiny-CMASD的参数量为5M,计算量为0.05G FLOPs,在GPU上达到实时检测效果,在AVA数据集上的mAP为90.6%,自标注测试集上ACC和AUC分别为88.4%和93.4%。 3)此外,本文将Tiny-CMASD应用到实际场景中,实现了一种更简单、更快、更高效的端到端跨模态AI动态临场感增强算法的应用,部署在电视机终端,将场景检测、人脸检测、人脸跟踪和说话人检测多步骤的任务整合到单一模型中,简化了处理流程,提升了检测精度和效率。针对临场感增强算法应用的延时问题,提出了动态滑动窗口策略,减少了不必要的计算开销,从而有效降低应用延时,对于30 FPS的视频输入,整体延时不到0.5秒,达到实时效果。

关键词

视频说话人检测/多模态信息融合/轻量级网络/动态滑动窗口

引用本文复制引用

授予学位

硕士

学科专业

新一代电子信息技术(含量子信息技术等)

导师

杨亚涛

学位年度

2024

学位授予单位

深圳大学

语种

中文

中图分类号

TP
段落导航相关论文