模式识别与人工智能2024,Vol.37Issue(1) :73-84.DOI:10.16451/j.cnki.issn1003-6059.202401006

基于多重视觉注意力的唇语识别

Lipreading Based on Multiple Visual Attention

谢胤岑 薛峰 曹明伟
模式识别与人工智能2024,Vol.37Issue(1) :73-84.DOI:10.16451/j.cnki.issn1003-6059.202401006

基于多重视觉注意力的唇语识别

Lipreading Based on Multiple Visual Attention

谢胤岑 1薛峰 2曹明伟3
扫码查看

作者信息

  • 1. 合肥工业大学计算机与信息学院 合肥 230601
  • 2. 合肥工业大学软件学院 合肥 230601
  • 3. 安徽大学计算机科学与技术学院 合肥 230601
  • 折叠

摘要

唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.

Abstract

Lipreading is a technology that translates the silent video of a single speaker's lip motion into text.Due to the small amplitude of lip movements,the feature differentiation ability and the generalization ability of the model are both weak.To address this issue,the purification of lipreading visual features is studied from three dimensions including time,space and channel.A method for lipreading based on multiple visual attention network(LipMVA)is proposed.Firstly,channel-level features are calibrated adaptively by channel attention to mitigate the interference from meaningless channels.Then,two spatio-temporal attention modules with different granularities are employed to suppress the effect of unimportant pixels or frames.Finally,experiments on CMLR and GRID datasets demonstrate LipMVA can reduce the error rate and therefore its effectiveness is verified.

关键词

唇语识别/视觉语音识别/注意力机制/深度神经网络/特征提取

Key words

Lipreading/Visual Speech Recognition/Attention Mechanism/Deep Neural Network/Feature Extraction

引用本文复制引用

基金项目

国家自然科学基金(62272143)

安徽省重大科技专项项目(202203a05020025)

安徽高校协同创新项目(GXXT-2022-054)

安徽省第七届创新创业人才特殊支持计划资助()

出版年

2024
模式识别与人工智能
中国自动化学会,国家智能计算机研究开发中心,中国科学院合肥智能机械研究所

模式识别与人工智能

CSTPCDCSCD北大核心
影响因子:0.954
ISSN:1003-6059
参考文献量32
段落导航相关论文