计算机技术与发展2023,Vol.33Issue(6) :208-214.DOI:10.3969/j.issn.1673-629X.2023.06.031

机械设备多模态声源分离方法研究

Research on Multimodal Sound Source Separation Method for Mechanical Equipment

简斌 肖晓萍 李自胜 张楷 袁昊
计算机技术与发展2023,Vol.33Issue(6) :208-214.DOI:10.3969/j.issn.1673-629X.2023.06.031

机械设备多模态声源分离方法研究

Research on Multimodal Sound Source Separation Method for Mechanical Equipment

简斌 1肖晓萍 2李自胜 1张楷 3袁昊1
扫码查看

作者信息

  • 1. 西南科技大学 制造科学与工程学院,四川 绵阳 621010
  • 2. 西南科技大学 工程技术中心,四川 绵阳 621010
  • 3. 西南交通大学 机械工程学院,四川 成都 610031
  • 折叠

摘要

针对单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题,提出一种多模态特征融合的机械设备声源分离方法.首先,通过利用多组不同尺度的特征提取层,构建一种多尺度特征提取结构的Res2Net18 网络,以提取机械设备细粒度视觉特征;再用坐标注意力机制模块替换UNet网络中直接跳跃连接,以增强编码器中不同音频特征的空间位置信息表达.其次,将机械设备视觉特征融入混合音频特征中生成对应声源掩码,再利用掩码与混合音频频谱结合得到独立声源频谱,从而实现根据视觉特征分离对应机械设备声源,该方法有效解决了单模态混合信号分离方法存在的无法确定机械设备与声源对应关系的问题.最后,在机械设备数据集上SDR、SIR和SAR分别达到6.14 dB、8.59dB和18.33 dB,与现有三种多模态声源分离模型进行对比,所提多模态声源分离方法在SDR和SAR均取得最优结果,验证了多模态声源分离方法的有效性.

关键词

机械设备/多模态数据/特征融合/声源分离/卷积神经网络

引用本文复制引用

基金项目

国家重点研发项目(2021YFB3400702)

四川省科技计划(2018GZ0083)

四川省科技计划(2018JY0245)

西南科技大学博士基金(17ZX7153)

西南科技大学博士基金(17ZX7154)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量5
段落导航相关论文