基于深度神经网络的唇语识别研究

汪星宇¹

扫码查看

作者信息

1. 重庆理工大学
折叠

摘要

唇语识别(LipReading)也被称为唇读，指从一组动态的嘴唇形状图像中提取有用的特征信息，用于识别嘴唇的动态变化，从而得到发音内容。近年来各类深度神经网络的引入给唇语识别研究带来了巨大的突破，其极大的研究应用价值也吸引了众多研究者投入该领域。然而在现实场景中，嘴唇区域容易受到背景噪声、姿态变化、运动模糊等因素的影响，传统的方法难以有效提取图像视觉特征以及时序特征，从而使得唇语识别的准确性较低，针对上述问题，本文对孤立单词和连续句子两类识别任务在深度神经网络领域展开了相关研究，最终达到提高唇语识别准确率的目的。本文的主要研究内容与贡献如下：（1）本文针对孤立单词级识别任务提出了一种融合3D-CBAM-DenseNet和MogrifierLSTM的端到端单词级唇语识别模型。该模型由前端和后端两个模块组成，前端网络中使用3DCNN加DenseNet并结合通道注意力模块和空间注意力模块对嘴部区域视觉特征与潜在高层次抽象特征表示进行提取，后端网络中使用双层Bi-MogrifierLSTM结合全局信息捕获输入图像上下文之间的时序特征。在此基础上提出一种MixUp与FenceMask相结合的数据增强方法，从而进一步提高模型的鲁棒性。实验结果表明，该算法模型能够有效提高单词级唇语识别精度，在LRW数据集上达到了87.2%的单词识别准确率。（2）本文针对连续句子识别任务提出一种融合单词级唇读特征提取和改进LipNet的端到端句子级唇语识别模型LipNet++。本文在单词级唇语识别研究的基础上针对更加复杂与更加贴近真实需求的句子级唇语识别展开了进一步研究，LipNet++使用级联时序分类器CTC进行端到端训练，并引入注意力机制模块对CTC提出改进，提出一种双分支3DCNN结构使用不同时间尺度对短时时空特征进行提取。在GRID数据集上，该模型CER和WER分别为1.1%和2.2%，性能优于其他方法。（3）为了将提出的唇语识别算法模型应用于实际场景中，本文实现了一个基于Web的唇语识别系统，该系统基于B/S架构，支持跨平台使用。用户可以通过浏览器进入系统，实现对输入视频的唇语识别。

关键词

深度神经网络/唇语识别/长短时记忆网络/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息(计算机技术)

导师

李艳梅

学位年度

2023

学位授予单位

重庆理工大学

语种

中文

中图分类号

段落导航