可解释多频带特征提取网络的病理嗓音检测研究

赵登煌¹

扫码查看

作者信息

1. 苏州大学
折叠

摘要

嗓音在人与人交流、人机交互等日常场景中发挥着重要的作用。过度用嗓、不科学发声、不健康的饮食等因素可能会损伤声带，使嗓音异常，影响人们的生活质量，严重时会给病人带来功能上和心理上的障碍。基于深度学习的自动病理嗓音检测技术是一种高效、客观的病理嗓音检测方法，但其可解释性难以得到保证，使其实际应用的可靠性受到挑战。因此，如何提升深度学习病理嗓音检测的可解释性是当前病理嗓音检测研究的重要问题。为了提高深度学习病理嗓音检测的可解释性和有效性，本文提出了一种可解释的多频带特征提取网络，并构建可解释多频带特征提取的病理嗓音检测系统（Interpretable Multi-band Feature Extraction pathological voice detection System，IMFES）。所提系统使用sinc函数限制卷积核滤波器的幅频响应，并通过通道注意力机制控制滤波器的幅值，以获得可训练且自适应的分频滤波器组，将原始嗓音信号转变成多频带信号；使用不同扩张率的扩张卷积提取不同尺度的细节信息，并利用通道注意力机制训练扩张率，以增强特征提取的自适应能力；使用深度可分离卷积分别在各个通道中提取特征，保证所提特征与多频带信号在频带上的一致性，并输出浅层网络的特征作为细节特征，深层网络的特征作为全局特征；为避免特殊网络结构带来的性能下降，设计了一种可解释的集成判断方法，根据每个嗓音帧的分类结果，计算综合评价指标嗓音病理指数，作为嗓音类别的判断依据。为充分验证所提 IMFES的性能，本文使用三大公开数据库的数据进行对比实验。IMFES的准确率在三个数据库中分别达到了98.67%、77.19%和85.23%，相比当前检测性能最好的 wav2vec+2D CNN 方法分别提高了 1.34%、4.20%和4.09%。为验证所提 IMFES 的泛化性能，本研究采集数据进行了盲测实验， IMFES 的准确率、F1 分数和马修斯相关系数分别达到了 76.04%、0.8460 和0.3257。本文还使用被动解释方法进一步补充了对 IMFES 判断过程的解释，梯度加权类激活映射结果显示，嗓音的第三共振峰和高频噪声对病理嗓音检测的贡献更大。以上实验结果表明，与现有方法相比，IMFES 不仅能够提供有意义的解释，还具有更好的病理嗓音检测效果和泛化性能，为嗓音疾病的快速、无侵入性诊断提供了一种可行的新思路。

关键词

病理嗓音检测/深度学习/多频带特征提取/可解释性

引用本文复制引用

授予学位

硕士

学科专业

检测技术与自动化装置

导师

陶智

学位年度

2024

学位授予单位

苏州大学

语种

中文

中图分类号

段落导航