基于深度学习的麦克风阵列声源定位方法研究

廖前锋¹

扫码查看

作者信息

1. 中国农业大学
折叠

摘要

低频噪声是人类日常生活中常见的噪声，声源定位技术在噪声抑制方面具有显著效果。传统声源定位方法在实际应用中往往受到环境因素的干扰，而深度学习则是一种数据驱动方法，具有对不同环境的适应能力。因此，本文在传统声源定位算法的基础上提出了基于深度学习的声源定位方法。该方法将声源定位问题转化为图像分类问题，并针对性的设计了一种融合先验信息的卷积神经网络，提高声源定位系统在存在噪声和混响环境中的定位准确率。本文的主要研究内容如下:(1)研究了基于麦克风阵列的传统声源定位方法。基于到达时间差的声源定位算法、基于可控波束形成的声源定位算法和基于高分辨率谱估计的声源定位算法都是通过一系列显式的物理公式推导得到声源的位置。其中前两种算法一般用于求解单声源定位问题，后一种算法多用于求解多声源问题。这三种方法对硬件设备有一定的要求且对噪声和混响的适应性不强。 (2)研究了声源信号预处理的方法和将阵列信号转化图像的方法。声源信号的预滤波算法消除了信号的异常值，分帧加窗为信号的后续处理提供了基础。本研究提供了三种将阵列信号转化为图片的方法。其一，将每一帧的阵列信号可以合并成一个向量，并将该向量转换为梅尔语谱图。其二，将阵列信号进行简单堆砌，并将堆砌后的矩阵转换为灰度图。其三，通过特定的空间排布形成方阵，进而将其转换为声图片，这种声图片经过拉伸后能很好的保留阵列信号的特征。这三种方法得到的图片为深度学习网络提供了输入。 (3)研究了基于深度学习的声源定位方法。经典的卷积神经网络在很多benchmark中表现出很高的分类准确率，但是这种通用的卷积神经网络对声源定位问题的特定性不足。本研究结合声源信号形成的图片，将图片的HOG特征作为卷积神经网络的先验信息，并将其特征向量与最后一个卷积层展平后的向量拼接，这样就形成了融合先验信息的卷积神经网络。该网络不仅降低了模型的参数量，同时提高了网络的性能，更加有效地解决了声源定位问题。 (4)研制了声源定位系统，并用该系统开展了一系列验证性试验。首先介绍了将声源定位问题转换为深度学习分类问题的方法。并从经济性和适用性两个角度，从硬件和软件两部分研制了声源定位系统。然后通过三组试验验证了本研究所提出的声源信号图像化方法的可行性、融合先验信息的卷积神经网络的先进性和基于深度学习的声源定位算法的优越性。

关键词

声源定位/麦克风阵列/声音信号图像化/卷积神经网络/深度学习

引用本文复制引用

授予学位

硕士

学科专业

机械电子工程

导师

张春龙

学位年度

2023

学位授予单位

中国农业大学

语种

中文

中图分类号

段落导航