摘要
无声语音识别(silent speech recognition,SSR)是指利用人类发音活动过程中产生的脑电信号、肌电信号或各发音器官的运动信息等非声学信号来进行言语意图解码,进而实现无声通讯与交流。作为语音识别的辅助方式之一,该技术在克服噪声干扰、维护通信私密性、保证言语障碍人群交流等方面发挥了重要作用。表面肌电(surface electromyography,sEMG)信号是一种通过表面电极从肌肉收缩活动过程中测量得到的生物电信号,具有不易受噪声干扰、操作简单无创等特点。因此,基于sEMG的无声语音识别技术可以通过采集面、颈部肌肉在无声发音过程中产生的sEMG信号来识别言语内容,为无声通讯提供了一种非常有效的解决方案。 多年来,利用sEMG进行有限数量的孤立词识别的研究已被广泛报道。然而,这些利用机器学习或深度学习算法对孤立词分类的方法缺乏对词语间或词语内长、短跨度不同的时序语义信息的刻画,且无法满足连续自然语言交流的需求。尽管已有少数研究者提出基于混合模型的序列解码方法来实现连续、自然的SSR系统,但该方法存在混合模型设计复杂、各模块无法联合训练优化、需要提前音素对齐等局限性。针对上述问题,本论文提出了一种基于Transformer的汉字级序列解码方法来实现表面肌电无声语音识别。该方法深入挖掘了无声语音活动产生的sEMG信号所包含的时序语义信息,实现了从sEMG信号到字级别序列的准确解码过程。在此基础之上,本论文还提出了一种基于Transformer-Transducer的高性能、低延时的流式无声语音识别方法,促进了 SSR系统在实际中的应用。研究的主要内容和成果如下: 1.提出了基于Transformer的表面肌电无声语音解码方法。首先依据面、颈部与发音相关的重要肌肉的生理解剖结构,设计并制定了 64通道的柔性高密度表面电极阵列用于记录无声语音过程中面、颈部相关肌肉活动产生的sEMG信号。接着从日常应用场景选取了 33个具有代表性的中文短语构成无声语音语料库。募集了 8名无任何语言障碍的健康受试者参与sEMG信号实验采集,并通过数据预处理操作得到所有短语级的sEMG样本。然后,利用特征序列向量化模块将每个sEMG样本重构为一个时间帧序列,再将该时间帧序列输入到Transformer模型中得到顺序的字级别决策。最后,由一个包含语言模型的优化模块将该字级别决策微调为更接近自然语言的字序列输出。所提方法取得了最低的字符错误率(5.14±3.28%)和最高的短语识别准确率(96.37±2.06%),显著优于其他常见的分类算法和序列解码算法。实验结果证明了所提方法在SSR领域的有效性。 2.开展了基于Transformer-Transducer的流式无声语音识别方法研究。流式无声语音识别是指在处理sEMG信号流的过程中能够即时返回识别结果。在上述基于Transformer的表面肌电无声语音解码方法基础之上,本研究提出了一种基于Transformer-Transducer的流式无声语音识别方法。具体而言,首先一个短语级的sEMG样本经过特征序列向量化模块被重构为一个时间帧序列。接着,以固定的帧数对该时间帧序列进行分块,并将这些小块按时间顺序流式地输入到Transformer-Transducer流式解码模型中进行识别。最后,由模型流式地输出字序列识别结果。本文特别探究了限制注意力上下文范围对模型识别性能的影响。实验结果表明,所提方法不仅在字序列解码和短语识别方面呈现出显著的性能优势,还能在高性能和低延时之间达到较好的平衡。研究验证了所提方法的可行性,为实时SSR系统的设计与实现提供了指导。