摘要
音乐分类是目前流媒体管理音乐资源和吸引用户的重要手段之一。音乐标签是音乐表达高层信息的关键词,也是进行音乐分类的重要依据。开发和优化音乐标注算法是音乐平台提升用户体验、提高服务品质的重要途径之一。科学合理的音乐标签体系一方面有利于平台高效组织管理利用音乐资源;另一方面便于平台基于用户个性化音乐标签信息,为其推送个性化音乐作品,从而提升用户粘性。 当前主流音乐平台(以网易音乐为例)的音乐推荐功能均以歌单形式整体打包推荐,歌单标签表达笼统泛化,不能精准反应其中音乐单曲的个性化信息,难免会造成“错误推送”。因此本文设计自动标签算法以音乐单曲为单位对其进行标签标注,为解决上述问题做有益探索。 本文研究主题是基于音乐内容的音乐标签标注,包含以下几方面工作:首先搜集不同网站的歌词和音频素材,构建包含中文歌词和音频的数据集。其次针对单曲歌词和音频信息表达方式的不同,设计两种不同的标签标注方案。歌词处理上,将Albert应用到音乐分类领域,通过Albert得到歌词的向量表示,再通过注意力机制和TextCNN得到全局信息、标签词典获得局部特征,结合两种方法预测歌词标签。音频处理上,将音频转换成频谱图,得到时间-频率的矩阵数据。根据流派、乐器标签特点,分别使用两种特征优化方式,再从输入矩阵中通过四种卷积方式的卷积神经网络提取流派和乐器的特征,实现对音频的分类。最后结合上述内容设计并实现了一个音乐标签标注系统,模拟实际应用中为用户的音乐作品标注标签。 本文的音乐标签标注算法,通过对歌词文本和音频信息提取特征,实现对音乐的标签预测。创新点在于歌词文本分类上使用了更先进的Albert模型;并结合了标签词典得到的局部特征加权预测文本标签;以及在音频分类上对于不同种类标签提出的音频叠加、副歌提取预处理和卷积方式的设计。相较于传统音乐分类模型,在本文自建数据集上本文音乐标签标注系统实现了更高的标注准确率,提升了用户体验和平台服务品质。