基于深度学习的多声音事件检测方法研究

李笑¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

多声音事件检测是一项对音频事件进行分类并标注其起止时间的技术，它在公共安全、智能家居、多媒体信息检索等领域具有广阔的应用前景。由于不同的声音事件有时会同时发生而产生彼此重叠现象，并且背景噪声的存在也会使声音事件的识别更加困难。目前在对检测声音事件起止时间要求比较严格的情况，常使用依赖强标签数据集的有监督学习方法，然而，强标签数据集较少，且高性能深度网络模型往往具有大量的参数，难以应用于嵌入式系统。因此,在数据集有限的情况下构建参数量较小且识别性能较高的神经网络模型是声音事件检测需要解决的问题。本文研究了基于深度学习的多声音事件检测系统，主要做了以下工作： (1)提出了基于残差网络和循环神经网络的多声音事件检测方法。在该方法中，残差网络通过增加网络深度来提高识别准确率，解决网络退化问题，以强化特征提取；用空洞卷积代替残差网络中的普通卷积，以增大感受野，提升识别性能；用循环神经网络捕获长时间依赖信息，以充分提取上下文信息。本文针对TUT-sound-events-2017评估数据集进行了实验，实验结果表明：该方法具有良好的识别性能，比多尺度全卷积网络(MS-FCN)模型的错误率降低了6.3%。此外，本文针对Freesound-noise系列数据集进行了实验，与MS-FCN和卷积循环神经网络(CRNN)模型相比，该方法在不同的信噪比和重叠事件种类数的情况下均具有较高的识别性能。 (2)提出了基于深度可分离卷积、压缩激励注意力机制(Squeeze-and-Excitation，SE)和循环神经网络的多声音事件检测方法。在该方法中，除了用循环神经网络学习长时间声音依赖信息外，用深度可分离卷积替代普通卷积，以减少模型的参数量和计算量。此外，本文用SE注意力机制学习不同通道特征的重要程度，将学习到的权重系数对通道特征进行加权，以提升模型的识别性能。在TUT-sound-events-2017数据集上的检测实验结果表明，在开发数据集上，该模型比MS-FCN模型错误率降低了0.9%，F1分数提升了0.4%；在评估数据集上，错误率降低了7.2%，F1提升了0.9%，并且该模型仅有11万的参数量。这表明该模型在参数量较少的情况下也具有较高的识别性能。此外，在Freesound-noise系列数据集上的实验结果表明，该方法在不同的信噪比和重叠事件种类数情况下的识别性能均高于MS-FCN和CRNN。

关键词

多声音事件检测/残差网络/空洞卷积/深度可分离卷积/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

陈喆/殷福亮

学位年度

2021

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航