基于多尺度注意力特征融合CRNN的声音事件检测

CRNN with multi-scale attention feature fusion for sound event detection

刘亚灵 ¹郭敏 ¹马苗¹

扫码查看

作者信息

1. 陕西师范大学计算机科学学院,陕西西安710119
折叠

摘要

针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能.首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征的多尺度注意,提高模型的特征选择能力;其次,提出一种多尺度特征融合方法,融合含有丰富上下文信息的多尺度注意力特征,提高模型的特征表达能力;最后,双向门控循环网络层对时间依赖性进行建模,全连接层对声音事件进行逐帧分类.除此之外,使用数据平衡技术进一步泛化模型.在AudioSet子数据集上的实验结果表明:提出的网络模型与CRNN相比,评估集(error rate,ER)下降11％,F1分数(F1-score,F1)提升8.3％,有效地提高了声音事件检测性能.

关键词

声音事件检测/多尺度特征融合/注意力机制/数据平衡

引用本文复制引用

基金项目

国家自然科学基金(61877038)

陕西师范大学中央高校基本科研业务费专项(GK202105006)

出版年

2021

光电子·激光

天津理工大学中国光学学会

光电子·激光

CSCD北大核心

影响因子：1.437

ISSN：1005-0086

被引量1

参考文献量2

段落导航