摘要
音乐的爆炸式增长和巨大数量使得我们的时代成为真正的数字音乐时代,同时,如何有效地管理音乐也成为一个值得关注的问题。情感是音乐最本质的特征,也是人们的心理感受,如何使计算机能够自动识别出音乐中的情感信息,对促进人工智能领域的发展具有非常重大的意义。 针对音乐情感分类的问题,为了弥补仅利用音频特征进行音乐情感分类的单一模态分类方法的不足,本文采用了结合音频和歌词的多模态音乐情感分类的方法。本文围绕音乐情感模型和分类模型的选取以及音乐特征的分析和处理展开,主要研究了如何利用歌词以及如何结合音频和歌词对音乐进行情感分类,并将多模态和单模态音乐情感分类性能进行了对比。 在基于歌词的音乐情感分类中,在传统的CHI特征选择方法的基础上引入了频度、集中度和分散度三个参数对CHI统计值进行调节,提出了改进的CHI特征选择方法。特征选择之后,利用TFIDF方法计算权重,然后利用LSA对歌词进行二次降维。实验数据显示,在对歌词进行情感分类过程中,传统的CHI特征选择方法的准确率为58.20%,改进的CHI特征选择方法的准确率为67.21%,结合LSA和改进的CHI特征选择方法的准确率为69.68%。由此可见,第三种方法的准确率更高且维数更低。 在基于音频和歌词的多模态音乐情感分类中,针对多模态融合问题,本文对传统的LFSM融合方法进行了改进,并通过实验对多种融合方法进行了比较,实验结果表明,改进的LFSM融合方法的分类效果最佳,达到84.43%,验证了该方法的可行性和有效性。