摘要
语音是人与人之间最自然的交流方式,也是一种基本的生存技能。自动语音识别(automaticspeechrecognition,ASR)是日常生活中一种语音技术,它可以帮助机器理解说话者的意图,有助于实现自然高效的人机交互(human-computerinteraction,HCI)。基于表面肌电(surfaceelectromyography,sEMG)的无声语音识别(silentspeechrecognition,SSR)是ASR技术的补充,可以解决ASR在某些特殊场景中使用受限的问题。基于sEMG的SSR通过使用非侵入式电极收集皮肤表面的电生理信号,用来记录与发声相关的肌肉活动。在说话人发声过程中,发声肌肉(即面部和喉部肌肉)运动伴随的sEMG是对人体神经指令的直观反映,通过sEMG信号可以辨识发声信息,从而对说话者语音表达的意图进行理解。然而,当前的SSR技术对无声语音sEMG时序信息刻画和理解能力尚显不足。现有的基于肌电的连续语音解码方法,依赖于有声学反馈的、标记有音素/字符标签的sEMG数据,限制了SSR中连续语音解码技术的发展。如何实现从sEMG中提取具有区分力的特征表示,研究不依赖于标签数据、能深入表征无声语音上下文语义的分类、解码方法,是构建鲁棒、实用的SSR系统关键问题。 在本文的研究工作中,利用柔性高密度电极阵列进行sEMG信号的采集,发挥其覆盖肌肉面积广、可捕获肌肉活动丰富的空间信息的优势,并以SSR性能提升为目标,利用神经网络自适应非线性的学习能力挖掘并提取与无声语音任务相关的sEMG特征,提出一系列先进的基于sEMG的无声语音分类与解码方法。本论文的主要工作如下: (1)基于时空信息融合的无声语音分类研究:针对现有的无声语音模式分类方法未能有效利用高密度肌电(highdensitysEMG,HD-sEMG)各通道间空间信息的问题,提出了基于时空信息刻画的神经网络识别方法,可以深入刻画空间和时序信息并融合,实现SSR性能的提升。首先,依托HD-sEMG蕴含的丰富肌肉活动信息,初步提取多通道表面肌电时域、频域、空域特征,搭建结合卷积神经网络和长短时记忆网络的识别网络。紧接着,利用空间刻画模块和时序刻画模块精确解析阵列式肌电捕获肌肉活动的时空信息,实现短语级模式识别。在此基础上,考虑到一些日常肌肉的活动会对SSR造成异常干扰,借鉴自编码(autoencoder,AE)网络刻画目标运动模式的优势,在保证准确学习目标运动模式的前提下,实现对非目标的各类异常干扰进行检测的肌电控制系统,提供了一种能够克服异常运动干扰的鲁棒SSR方法。最后,为了验证对目标模式识别和异常模式检测的有效性,以面喉部肌肉发声肌肉为主要研究对象,以常见的33类短语为识别目标,9类异常干扰模式为检测目标,开展了11位受试者的数据采集和分析。实验结果表明,所提方法在对异常干扰模式鲁棒检测的同时依旧能够保证较高的目标模式识别率。 (2)基于连接时序分类方法(connectionisttemporalclassification,CTC)的无声语音解码研究:针对无声语音的sEMG数据缺少字符/音节级标签以及对时序信息难以高效学习的问题,提出了一种自适应标签配准的无声语音解码方法。所提方法利用融合时空信息的神经网络,有效刻画了沿时间轴的特征流。再通过CTC方法自适应标定不同时刻输入序列的标签,将基于音节水平的标签映射到sEMG信号,建立其与语音内容之间的关联。最后,通过CTC解码器,结合语言模型(languagemodel,LM),实现在字符/音节级别的无声语音解码。另外,基于CTC解码方法是对数据帧层面的信息刻画,更容易获得目标模式细粒度信息的表征,将这种学习到的低维目标模式特征结合AE模块也可以实现对异常模式的检测。采用了与上述工作一致的数据集,并将上述工作中提出的具备异常功能检测的无声语音分类方法作为对比方法,进行系统的有效性验证。实验结果表明,相较于无声语音模式分类方法,基于CTC解码的方法无论是在目标模式识别还是异常模式检测方面都展现出更好的识别结果。 (3)基于编解码框架的无声语音解码研究:为了进一步克服连续语句中音节/字符级别信息高效编解码的难题,提出了基于编解码框架的无声语音解码方法。该方法关注序列信息中时间依赖性内容,逐步解码输出结果。框架中的编码器对时序特征序列进行学习,挖掘上下文语义中的关联性,经由注意力机制有侧重的学习序列信息,解码器借鉴注意力机制分配的重要信息权重逐字解码出目标序列,实现音节级SSR,提高了SSR的准确度和实用性。在借鉴Transformer的多头注意力机制刻画时序信息的基础上,针对肌电数据的特性设计了融合空间信息刻画的conv-transformer结构,得到了更好的识别结果。所提方法在15位受试者,基于82个中文字符的33类短语上得到验证,识别结果优于现有的主流识别方法,为基于sEMG的SSR提供了一种连续高效的无声语音解码方法。