摘要
音频场景分类任务中音源复杂以及音频事件高度重叠是抑制其性能提高的主要因素。为此,本文研究基于多示例分析的音频场景分类模型来解决这一问题。 第一,提出了基于耳蜗图多示例分析的音频场景分类模型。该模型首先采用模拟入耳基底膜非线性频率选择特性的耳蜗图对输入声音信号进行表示以提高特征分辨率;其次,引入多示例分析以捕捉音频事件与场景语义标签之间的潜在关系;最后,在分类模型的音频示例生成器以及分类预测整合器中采用平均池化方法来抵抗音频事件的频移影响。在TUTUrbanAcousticScenes2018与TAUUrbanAcousticScenes2019数据集上的实验结果表明,本文提出的模型在分类准确率方面优于传统模型。 第二,提出了基于多尺度图卷积网络的音频场景分类模型。该模型首先采用多示例分析方法将音频样本映射为音频示例包,并引入图卷积网络分析音频示例包中的音频示例之间的相关性;其次,将多尺度学习机制引入图卷积网络从而获取多尺度特征;最后,在多示例分析框架中引入注意力机制,通过分配注意力权重以提高分类准确性。在以上两个数据集的实验结果表明,基于多尺度图卷积网络的音频场景分类模型取得了比本文提出的前一种分类模型更高的分类准确率。