基于多通道特征和混合注意力的环境声音分类

Environmental Sound Classification Based on Multi-channel Features and Mixed Attention

周帅 ¹李理 ²彭章君 ¹黄鹏程¹

扫码查看

作者信息

1. 西南科技大学计算机科学与技术学院,四川绵阳 621000
2. 西南科技大学计算机科学与技术学院,四川绵阳 621000;四川省自主可控人工智能工程技术中心,四川绵阳 621000
折叠

摘要

环境声音分类(ESC)已成为非常重要的研究方向,但由于环境声音种类繁多,无法进行统一表征,加之易受噪声的干扰,使得ESC任务变得复杂.为了提高ESC任务的识别精度,提出了基于多通道特征和混合注意力模型的分类方法.首先,将ESC信号进行时频转换并使用多种滤波器提取频谱特征,将其重构为三通道特征图.多通道特征可以利用特征之间的互补性,弥补单一特征信息表征不足的缺点;其次,引入了一种由通道和时频注意力模块组成的混合分类模型,通道注意力模块计算特征图并对不同通道分配权重,含有更多有效信息且对该类声音分辨较好的通道特征则会被分配更多的权重,时频注意力模块会重点关注时域和频域中更有效的信息.该方法可较好地抑制背景噪声,消除冗余,提高收敛速度和分类精度.对比实验表明,在ESC-10,ESC-50 数据集上的识别精度分别达到了 96.25%和 89.56%,在Ur-bansound8k的数据集上达到98.40%.

关键词

环境声音分类/多通道特征/通道注意力/时频注意力/混合注意力模型/深度模型

Key words

environmental sound classification/multi-channel feature/channel attention/time-frequency attention/mixed attention model/deep model

引用本文复制引用

基金项目

国家自然科学基金(U21A20157)

国家重点研发计划(2019YFB1310501)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量4

段落导航