基于节拍和关键背景模型的音频分类与分割

王冬冬¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

音频数据分类分割是音频数据处理系统最常用、最重要的预处理技术，显著地影响系统的性能和效果，具有重要的研究价值。在音频样例检索系统中，需要为操作人员提供便捷、高效的样例提取工具，从多媒体文件中截取音频片段，作为查询的样例数据。截取的样例一般是包含操作人员感兴趣、含有重要信息、内容具有一定完整性的片段。尽管音频信息无法快速浏览，但如果在操作人员截取音频样例之前，先使用音频分割分类技术获取音频文件内容的结构化信息，然后采用可视化技术呈现给操作人员，将便于操作人员快速浏览文件内容、便捷、高效地选取音频片段，完成样例制作任务。本研究主要内容包括：⑴采用随机森林算法实现音频的粗分类，将音频数据分为音乐、纯语音、含背景音乐语音、含背景噪音语音和背景音，共五类。采用基于音频段的分割方法实现音频的粗分割，将音频数据分为音乐、语音和背景音三大段。⑵对于音乐类数据，针对操作人员更多关注有歌声音乐而非纯音乐的特点，提出了基于节拍的分类方法，将音乐类数据细分为纯音乐与有歌声音乐两种。实验结果表明，该方法对于不同类型的音乐数据均具有较好的性能。⑶对于语音类数据，如果语音时长过长，不利于快速地选择样例片段的提取位置。提出了基于高斯统计直方图特征和单高斯关键背景模型的语音分割方法。训练单高斯模型并优选关键背景模型，采用统计方法将梅尔倒谱系数特征映射为直方图特征，并用基于余弦距离的聚类方法进行聚类，聚类结果即为分割结果。利用该方法对语音类数据进行细分割，得到具有相对独立性的子片段作为候选的样例片段。实验结果表明本文提出的语音分割方法准确率高、速度快。

关键词

音频分类/节拍识别/信号处理/分割算法

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

郑贵滨

学位年度

2017

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航