首页|基于深度学习的音视频语音识别技术回顾与展望

基于深度学习的音视频语音识别技术回顾与展望

扫码查看
音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息.音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景.本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状.具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾.除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结.进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望.

张景宣、万根顺

展开 >

陕西师范大学 计算机科学学院,西安 710119

中国科学技术大学,合肥 230026

语音识别 音视频语音识别 唇语识别 音视频自监督学习

中央高校基本科研业务费专项

GK202406005

2024

人工智能

人工智能

ISSN:2096-5036
年,卷(期):2024.(3)