摘要
构音障碍是帕金森病的早期症状之一,基于帕金森病构音障碍的分析已成为当前领域的热点研究,尤其是基于语谱图时频表示的帕金森病构音障碍分析广受关注。但目前语谱图的表示方式存在角度单一、信息提取受限的问题。针对此问题,该文提出分数阶语谱图的表示方法,通过多角度的能量信息表征帕金森病的构音障碍。以此为基础,分别提出基于分数阶语谱图的FrSwin模型和基于分数阶属性拓扑的帕金森病构音障碍表示方法,具体工作如下: 首先,为了弥补传统语谱图从单一角度描述构音信号的局限性,研究分数阶语谱图的表示方法。该方法增加角度的旋转因子,将构音信号转化为分数阶语谱图,增强从不同角度获取更加丰富的能量信息的能力。进一步地,提出以分数阶语谱图为基础的深度学习与声学特征表示的研究方法框架。 其次,针对深度学习的可解释性问题,提出基于分数阶语谱图的FrSwin网络方法。该方法将不同阶数下的分数阶语谱图作为模型输入,提高所得特征表示的解释意义。同时,采用迁移学习将FrSwin网络在ImageNet上预训练的共享参数迁移至分数阶语谱图,并进行微调以获取最终的权重参数,从而解决数据量小的弊端,使模型学习到更多有利于分类的知识。最终,根据FrSwin网络训练获取的特征表示与迁移学习的权重参数计算分类标签。实验中,当阶数为0.5时,在Database-1中取得97.80%的准确率;当阶数为0.9时,在Database-2中取得98.75%的准确率。实验结果表明,FrSwin网络不仅提高了分类精度与可解释性,且性能稳定。 最后,为了强化分数阶语谱图中能量信息的对应关系,提出基于分数阶属性拓扑的声学特征表示方法。该方法对分数阶语谱图中的能量方向信息进行统计,并通过核密度估计得到能量点方向值的置信区间。根据置信区间与方向属性间的所属关系建立映射,进而将能量信息转化为形式背景。依据形式背景建立分数阶属性拓扑图,从而描述子区域内能量点方向属性之间的关联关系。通过分析分数阶属性拓扑图结构的离散程度,提取连通分量特征用于帕金森病构音障碍的分类。实验中,当阶数为0.7时,在Database-1和Database-2两个数据集上分别取得99.57%和96.38%的分类准确率。实验结果表明,所提特征可以有效的描述帕金森病的构音障碍。