基于多模态波束方向特征的多模语音分离及识别

扫码查看

原文链接

NETL
NSTL
万方数据

中文摘要：最近,研究人员开始探索不同模态之间的互补关系.由于视频信息对背景噪声和干扰说话者的自然免疫性,已经开发了音频-视觉语音分离技术.本文提出了一种基于多模态语音活动检测(Voice Activity Detection,VAD)和波束形成器的多模态波束方向特征(Multi-Modal Beamformed Directional Feature,MMBDF).由于多模态VAD模型的鲁棒性,该特征可以提供目标说话者的鲁棒位置信息.此外,本文还提出了MMBDF的在线版本,以提高说话者移动时的性能.本文使用语音识别器性能作为评估指标,假设语音识别器是一个黑盒.模拟和真实数据集上的实验结果也证明了提出的多模态方向特征的有效性.

作者：

屠彦辉、霍伟明、高建清、王海坤、马峰、殷兵、王瑞、付中华、樊其锋

展开 >

作者单位：

科大讯飞股份有限公司,合肥 230088

广东美的制冷设备有限公司,广东佛山 528308

西北工业大学,西安 710072

关键词：

多模态语音分离多任务学习波束形成

基金：

国家重点研发计划

项目编号：

2022YFB4500600

出版年：

2024

DOI：

10.16453/j.2096-5036.202426

人工智能

ISSN：2096-5036

年,卷(期)：2024.(3)