基于音视频信息的深度多模态抑郁症识别综述

A Survey of Deep Multimodal Depression Recognition Based on Audio-visual Cues

张石清 ¹张星楠 ¹赵小明²

扫码查看

作者信息

1. 浙江理工大学信息学院,浙江杭州 310023;台州学院智能信息处理研究所,浙江台州 318000
2. 台州学院智能信息处理研究所,浙江台州 318000
折叠

摘要

抑郁症是一种精神疾病,严重时会导致自杀行为的发生.当前抑郁症患者人数正变得越来越多,越来越普遍化、年轻化.采用机器学习方法开展面向音频、视频等模态信息的多模态抑郁症识别研究已成为一个计算机科学、心理学、医学等多学科交叉的热点课题.近年来,新发展起来的深度学习技术也逐渐被应用于面向音频、视频等模态信息的多模态抑郁症识别中的深度特征提取任务.为了系统总结和归纳近年来深度学习技术在多模态抑郁症识别领域的研究进展,首先介绍了抑郁症的临床表现及心理学诊断方法,随后简要总结了现有的抑郁症数据集,并阐述了代表性深度学习技术的基本原理及进展情况;然后,系统分析和总结了面向音频、视频的多模态抑郁症识别涉及到的关键技术,包括手工特征提取和深度特征提取,以及多模态信息融合策略;最后,指出了该领域存在的机遇与挑战,并对下一步的研究方向进行了总结与展望.

关键词

抑郁症/深度学习/音频/视频/特征提取/多模态/融合方法

Key words

depression/deep learning/audio/video/feature extraction/multimodality/fusion method

引用本文复制引用

基金项目

国家自然科学基金(62276180)

国家自然科学基金(61976149)

浙江省自然科学基金(LZ20F020002)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量5

段落导航