摘要
环境声音分类(ESC)已成为非常重要的研究方向,但由于环境声音种类繁多,无法进行统一表征,加之易受噪声的干扰,使得ESC任务变得复杂.为了提高ESC任务的识别精度,提出了基于多通道特征和混合注意力模型的分类方法.首先,将ESC信号进行时频转换并使用多种滤波器提取频谱特征,将其重构为三通道特征图.多通道特征可以利用特征之间的互补性,弥补单一特征信息表征不足的缺点;其次,引入了一种由通道和时频注意力模块组成的混合分类模型,通道注意力模块计算特征图并对不同通道分配权重,含有更多有效信息且对该类声音分辨较好的通道特征则会被分配更多的权重,时频注意力模块会重点关注时域和频域中更有效的信息.该方法可较好地抑制背景噪声,消除冗余,提高收敛速度和分类精度.对比实验表明,在ESC-10,ESC-50 数据集上的识别精度分别达到了 96.25%和 89.56%,在Ur-bansound8k的数据集上达到98.40%.