基于深度学习的音视频语音识别技术回顾与展望

扫码查看

原文链接

NETL
NSTL
万方数据

中文摘要：音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息.音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景.本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状.具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾.除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结.进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望.

作者：

张景宣、万根顺

展开 >

作者单位：

陕西师范大学计算机科学学院,西安 710119

中国科学技术大学,合肥 230026

关键词：

语音识别音视频语音识别唇语识别音视频自监督学习

基金：

中央高校基本科研业务费专项

项目编号：

GK202406005

出版年：

2024

DOI：

10.16453/j.2096-5036.202423

人工智能

ISSN：2096-5036

年,卷(期)：2024.(3)