摘要
随着互联网技术的迅猛发展和多媒体应用的快速增加,音视频、图像等多媒体数据已经成为信息技术中主要的媒体形式。其中,音频信息是重要的多媒体数据。音频分类也成为音频数据处理时最常用的预处理技术。但是现有的音频分类方法多是将音频分类为某一单一类别,而语音音乐混合类数据是互联网中常见的音频数据,若仅标记为混合类,不够精细。故本文中提出对语音音乐混合类音频(以下简称混合音频)数据进行更加精细的标注,通过借鉴音频分类分割等方法,研究估计混合音频中语音和音乐能量占比的方法。 本文针对混合音频的语音成分能量占比估计问题,分析了语音音乐在结构上的差异、研究了区分性特征提取方法、语音音乐分类方法、能量估计方法等。论文的主要内容如下: (1)基于LSTM的能量占比多分类方法 将混合音频中的语音成分能量占比估计问题,转化为能量占比的分类问题,将分类器得到的结果作为混合音频中语音成分的能量占比。选取音频分类中常见的音频基本特征,对3s长的混合音频构建LSTM分类器,作为本文的基线系统。评价方法为平均误差。 (2)基于语音短时停顿的能量占比估计方法 利用语音中往往含有短时停顿,从而在混合音频中会出现无语音的纯音乐段这一特点估算语音成分的能量占比。该方法首先训练一个CNN二分类器,用来检测混合音频中的纯音乐段,然后通过音乐能量平稳的特点估计音乐成分的能量,计算语音成分能量占比数值。实验结果表明,该方法具有较好的效果。 (3)基于和谐度特征组的能量占比分类方法 针对在语音中没有停顿或者太短以至于检测不到的问题,本文提出了一种不依赖语音停顿的分类方法。该算法采用了和谐度和基频特征,对和谐度进行改进并构建了基于节拍分段的和谐度统计特征,使用CNN-LSTM网络进行分类,取得了很好的分类效果。