摘要
我国内蒙古地区以察哈尔蒙古语为蒙古语标准语,蒙古国以喀尔喀蒙古语为蒙古语标准语。随着各类手机智能助手以及智能家居的普及,人机交互成为了研究热点。语音识别技术是人机交互中必不可少的一个环节。目前,英语、汉语、德语等语言语音识别系统已经达到了使用要求,但是基于喀尔喀蒙古语的语音识别研究仍处于初级阶段。为了推进蒙古语智能语音技术发展,本文根据喀尔喀蒙古语特点研究了基于深度学习和迁移学习的喀尔喀蒙古语语音识别系统,主要工作如下: (1)构建了喀尔喀蒙古语语音库,并以此为基础搭建了基于TDNN(TimeDelayNeuralNetwork)的喀尔喀蒙古语语音识别基线系统。针对喀尔喀蒙古语语料数据较少的问题,本文构建了总时长为80小时的喀尔喀蒙古语语料库。由69个蒙古国人参与录制,其中男性33名,女性36名。并以此为基础,实现了基于TDNN声学模型的喀尔喀蒙古语语音识别基线系统,识别准确率达到了80.75%。 (2)研究了基于深度学习的喀尔喀蒙古语语音识别声学模型。首次引入CNN(ConvolutionalNeuralNetwork)、LSTM(LongShort-TermMemory)、TDNN-LSTM和DFSMN(DeepFeed-ForwardSequentialMemoryNetwork)网络对喀尔喀蒙古语语音识别进行声学建模,有效提升了语音识别识别准确率。其中表现最优的基于TDNN-LSTM声学模型相比基线系统、CNN声学模型、LSTM声学模型和DFSMN声学模型词错误率分别下降了6.9%、17.7%、5.7%和10.3%。 (3)研究了基于迁移学习的喀尔喀蒙古语语音识别声学模型。本文针对喀尔喀蒙古语属于低资源语言的问题,分别以英语和察哈尔蒙古语作为源领域,利用基于fine-tuning的迁移学习方法和基于权重迁移的迁移学习方法对TDNN-LSTM喀尔喀蒙古语声学模型进行优化。实验结果表明,基于权重迁移的声学模型相较于基于fine-tuning的声学模型能够获得更高的识别准确率。以察哈尔蒙古语为源领域,基于权重迁移方法的TDNN-LSTM声学模型的WER(WordErrorRate)达到了12.12%。 (4)搭建了喀尔喀蒙古语语音识别应用系统。本文采用Django框架,同时结合C/S架构,页面设计采用LayUI框架,设计并搭建了喀尔喀蒙古语语音识别应用系统。将基于权重迁移的TDNN-LSTM的模型部署在该系统中,方便用户根据需求使用该系统进行喀尔喀蒙古语语音识别。