摘要
语音识别技术是以语音为研究对象,通过语音信号处理和模式识别技术让计算机自动识别和理解人类的语音,并将语音转换为相应文本序列的技术,在语音输入、语音助手、智能家居、无人驾驶、机器人语音指令交互等工程中具有重要应用价值。 随着深度学习技术的发展,基于神经网络的语音识别技术逐渐成为国内外研究热点。藏语语音识别技术由于受语料库、自然语言处理技术以及多方言等限制,发展比较缓慢,但其需求非常迫切。为了促进藏语语音识别技术的发展,文章以安多藏语语音为研究对象,采用深度学习技术,从藏语文本语料库及安多语音语料库构建、语料库预处理、声学模型和语言模型构建及安多藏语语音系统的设计实现等方面研究了安多藏语语音识别关键技术。 (1)语料库构建方面 通过分析藏文文本特征和安多藏语语音特点,采集了大小为284.2MB不同类型文本语料和170小时安多藏语语音语料库。 (2)语料库预处理方面 根据安多藏语语音识别的实际需求,对语料库进行了规范化、字丁切分/标注等预处理,制定了藏文数字文本分类及规范规则,设计了面向语音识别的藏文字丁切分/标注算法,并统计了藏文字丁分布。藏文数字文本分类和规范的平均准确率分别达99.45%和99.28%,藏文字丁切分/标注准确率达99.99%。 (3)声学模型和语言模型构建方面 分析安多藏语语音特征的基础上,设计了以字丁为建模单元的MRDCNN_CTCamp;Transformer的安多藏语语音识别模型,其中声学模型采用融入多尺度、残差网络的卷积神经网络与时序分类算法MRDCNN_CTC,语言模型采用Transformer。 (4)安多藏语语音识别系统的设计实现方面 在构建安多藏语语音识别声学模型和语言模型的基础上,设计实现了基于MRDCNN_CTCamp;Transformer的安多藏语语音识别可视化系统,并实验验证了声学模型、语言模型和识别系统的性能。实验表明,声学模型的错误率为18.67%,语言模型的错误率为2.8%,语音识别的错误率为18.87%。