摘要
在音频识别领域研究中,环境声识别指计算机通过模拟人耳的听觉功能,对一段短暂的音频信号进行学习与分析,进而赋予相应的类别标签。此外,环境声音本身可以传递出很多重要的信息,通过对这些声音进行分析,可以帮助人们监测环境中的状况,从而有助于分析声学的场景。目前,环境声识别分类研究在医疗保健、安全监控、生态环境变化预测等领域的应用需求尤为突出。 由于语音信号的结构性强且界限清晰,而环境声信号没有共同结构且容易受到其他噪声的干扰,所以为语音识别开发的模型不适用于环境声音分类任务。随着人工智能技术的不断发展,深度学习技术被用于环境声音分类。通过选取适当的声学特征来训练神经网络,从而解决环境声音识别分类任务。尽管该领域目前有大量的研究成果,但目前仍存在许多挑战。在现有方法中,一方面,大多数采用单一语音特征作为模型的输入,并且这些特征都是逐帧表示,忽略了环境声音特征的时序性,从而导致了一定的环境声信息的损失。另一方面,较少从模型的角度进行考虑,简单的神经网络模型难以完整的提取环境声音特征中全局的深层特征。因此,本文针对这两个方面提出了如下解决方法。 (1)针对单一环境声音特征难以全面反映环境声特征,本文提出了一种基于多特征融合的环境声识别分类方法。该模型框架分别提取了环境声的时域特征与频域特征。通过对比实验,选取在相同分类器的情况下,识别结果较好的时域特征与频域特征,并进行融合。最后,我们将其与不同分类器进行对比分析,依据分类评估标准,对融合效果进行探讨。 (2)为了提高模型对环境声音特征的全局提取能力,本文对不同的卷积方式进行分析对比。在此基础上,使用不同的注意力机制对不同卷积层中提取出的特征进行注意力实验,并对得出的实验结果进行综合分析。最后,我们将其与主流算法进行对比,得出本文的方案。 实验结果表明,将时域特征、频域特征以及时频特征进行融合,其分类效果优于单特征,以及双特征。在此基础上,使用卷积的方式取得的效果优于其他卷积方式。并且通过对注意力机制进行研究,发现在卷积神经网络第一层嵌入软注意力机制能够更好的关注到融合特征中的深层信息。