摘要
针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能.首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征的多尺度注意,提高模型的特征选择能力;其次,提出一种多尺度特征融合方法,融合含有丰富上下文信息的多尺度注意力特征,提高模型的特征表达能力;最后,双向门控循环网络层对时间依赖性进行建模,全连接层对声音事件进行逐帧分类.除此之外,使用数据平衡技术进一步泛化模型.在AudioSet子数据集上的实验结果表明:提出的网络模型与CRNN相比,评估集(error rate,ER)下降11%,F1分数(F1-score,F1)提升8.3%,有效地提高了声音事件检测性能.
基金项目
国家自然科学基金(61877038)
陕西师范大学中央高校基本科研业务费专项(GK202105006)