首页|基于多尺度自适应注意力机制的视听语音分离

基于多尺度自适应注意力机制的视听语音分离

扫码查看
在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱.本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示.此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联.实验结果验证了该方法的有效性.

吴亮、王甲祥、施汉琴、郑爱华、盛小飞

展开 >

安徽大学 计算机科学与技术学院,合肥 230601

徐州工程学院 信息工程学院,江苏 徐州 221000

安徽大学 人工智能学院,合肥 230601

芜湖辛巴网络科技有限公司,安徽 芜湖 241002

展开 >

语音分离 多模态 注意力机制 视听相关性

国家自然科学基金青年科学基金安徽省重点研发计划安徽省高等学校协同创新项目

62102344202304a05020056GXXT-2022-036

2024

人工智能

人工智能

ISSN:2096-5036
年,卷(期):2024.(3)