基于双向长短时记忆网络的藏语语音情感识别

李珊珊 ¹边巴旺堆²

扫码查看

作者信息

1. 西藏大学信息科学技术学院西藏拉萨 850000
2. 西藏大学信息科学技术学院西藏拉萨 850000;西藏大学信息技术国家级实验教学示范中心西藏拉萨 850000
折叠

摘要

为提高藏语拉萨方言的语音情感识别准确度,构建了一个包含 6000 条语音样本的语料库,采用了改进的MFCC特征提取方法和双向长短时记忆网络(BiLSTM)模型.改进的MFCC特征能更有效地表征藏语中的情感信息,而BiLSTM模型则能有效捕捉语音序列中的长期依赖关系,这对于情感识别任务尤为重要.研究结果显示,所设计的方法达到了 81%的准确率,相较于传统方法有显著提升,在处理藏语情感识别方面具有很高的效果和潜力.未来的研究方向包括进一步优化模型结构,探索更多的深度学习架构,改进语音特征提取技术,以进一步提高模型的准确率和泛化能力,为语音情感识别技术在藏语等少数民族语言中的应用奠定重要的基础.

关键词

藏语情感识别/MFCC特征/长短时记忆网络/语音情感分析/深度学习

引用本文复制引用

出版年

2024

信息技术与信息化

山东电子学会

信息技术与信息化

影响因子：0.29

ISSN：1672-9528

段落导航