首页|基于双向长短时记忆网络的藏语语音情感识别

基于双向长短时记忆网络的藏语语音情感识别

扫码查看
为提高藏语拉萨方言的语音情感识别准确度,构建了一个包含 6000 条语音样本的语料库,采用了改进的MFCC特征提取方法和双向长短时记忆网络(BiLSTM)模型.改进的MFCC特征能更有效地表征藏语中的情感信息,而BiLSTM模型则能有效捕捉语音序列中的长期依赖关系,这对于情感识别任务尤为重要.研究结果显示,所设计的方法达到了 81%的准确率,相较于传统方法有显著提升,在处理藏语情感识别方面具有很高的效果和潜力.未来的研究方向包括进一步优化模型结构,探索更多的深度学习架构,改进语音特征提取技术,以进一步提高模型的准确率和泛化能力,为语音情感识别技术在藏语等少数民族语言中的应用奠定重要的基础.

李珊珊、边巴旺堆

展开 >

西藏大学信息科学技术学院 西藏拉萨 850000

西藏大学信息技术国家级实验教学示范中心 西藏拉萨 850000

藏语情感识别 MFCC特征 长短时记忆网络 语音情感分析 深度学习

2024

信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
年,卷(期):2024.(10)