机械设备多模态声源分离方法研究

Research on Multimodal Sound Source Separation Method for Mechanical Equipment

简斌 ¹肖晓萍 ²李自胜 ¹张楷 ³袁昊¹

扫码查看

作者信息

1. 西南科技大学制造科学与工程学院,四川绵阳 621010
2. 西南科技大学工程技术中心,四川绵阳 621010
3. 西南交通大学机械工程学院,四川成都 610031
折叠

摘要

针对单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题,提出一种多模态特征融合的机械设备声源分离方法.首先,通过利用多组不同尺度的特征提取层,构建一种多尺度特征提取结构的Res2Net18 网络,以提取机械设备细粒度视觉特征;再用坐标注意力机制模块替换UNet网络中直接跳跃连接,以增强编码器中不同音频特征的空间位置信息表达.其次,将机械设备视觉特征融入混合音频特征中生成对应声源掩码,再利用掩码与混合音频频谱结合得到独立声源频谱,从而实现根据视觉特征分离对应机械设备声源,该方法有效解决了单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题.最后,在机械设备数据集上SDR、SIR和SAR分别达到6.14 dB、8.59dB和18.33 dB,与现有三种多模态声源分离模型进行对比,所提多模态声源分离方法在SDR和SAR均取得最优结果,验证了多模态声源分离方法的有效性.

关键词

机械设备/多模态数据/特征融合/声源分离/卷积神经网络

引用本文复制引用

基金项目

国家重点研发项目(2021YFB3400702)

四川省科技计划(2018GZ0083)

四川省科技计划(2018JY0245)

西南科技大学博士基金(17ZX7153)

西南科技大学博士基金(17ZX7154)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量5

段落导航