摘要
声音事件检测旨在识别声音片段中声音事件的类别及其相应的开始和偏移时间,广泛应用于自动驾驶、环境安全检测等领域。声音事件检测系统需要捕获长短期依赖关系并提取多尺度时间分辨率特征,以检测具有不同时频特性的声音事件,现有的声音事件检测算法在特征提取阶段对声音事件在频率维度上的复杂性考虑不足,无法全面表征声音事件的关键信息。此外,基于深度学习的神经网络模型需要大量数据做训练,虽然已有许多优秀的预训练模型被提出并运用于音频标注等领域来弥补数据不足,但在声音事件检测任务中使用预训练模型的研究较少。针对以上问题,本文做了如下研究: (1)针对现有声音事件检测方法中对不同时间和频带信息关注不够且传统的单一特征无法表征时频重叠声音事件的空间相位信息,本文提出一种基于双特征输入的时频注意力算法,将对数梅尔谱图、相位变换的广义互相关作为输入,分别从时间和频率两个维度使用注意力机制捕捉更有效的时频特征。此外,针对现有算法对特征进行多分辨率处理能力不足的问题,本文设计了基于注意力的特征金字塔模型来学习多尺度特征,帮助模型识别不同声音事件。实验结果表明:本文所提算法在基于事件的 F1 和 ER 上分别达到了47.2%和0.943,比基线系统提升了6.9%和0.187,实验结果表明该算法不仅能够有效利用功能互补的声学特征捕捉声音事件中的关键时间频率信息,还可以处理不同时频分辨率的声音事件,进一步提高了声音事件检测性能。 (2)针对现有声音事件检测算法所用神经网络模型中的卷积层对声音频谱图处理能力不足,破坏了声音事件频率依赖性,本文提出一种基于频率动态卷积的声音事件检测算法,将普通的卷积块替换为频率动态卷积块来改进网络模型,通过应用频率自适应核动态地调整卷积核参数来捕捉音频特性;此外,针对模型训练时缺乏强标记数据导致模型泛化性较差的问题,本文使用了适合声音事件检测任务的预训练模型,并提出两种将预训练模型和原始模型特征融合的策略,有效地帮助原始模型在数据有限的情况下获得更多特征信息;最后,应用时间平衡焦点损失函数来训练模型,改善训练样本分布不平衡的问题。实验结果表明:本文所提算法在F1、PSDS1、PSDS2上分别达到了58.8%、0. 532 和 0.841,证明该算法不仅能够增强模型与声音事件时频之间的一致性,还能有效缓解强标记数据不足的问题,有效提高了声音事件检测性能。