摘要
医学图像处理领域里,使用深度学习技术可以高效地辅助完成预先诊断、疾病预测分类等任务。但深度学习模型训练需要大量的数据进行支撑学习,足够的数据才能保障深度学习算法的有效性和可靠性。而医学图像资源总体稀缺,各个医疗机构拥有的病患数据出于隐私考虑不能直接进行交互共享。“数据孤岛”的困境给人工智能在医学图像处理领域的发展带来巨大挑战。 本课题面向肿瘤超声图像分类问题,采用联邦学习的模式搭建了一套基于神经网络的图像分类模型,模拟了多个医疗机构作为客户端进行联邦分类的过程。与传统的集中式训练模型相比,联邦学习的模式避免了不同客户端之间数据的直接交互,保护了病患隐私,且在联邦训练中服务端对各个客户端本地模型参数进行聚合,得到一个相比单个客户端本地训练泛用性更好、准确率更高的全局模型。本课题采用经典的联邦平均算法结合VGG网络搭建了联邦分类框架,探究了超参数对联邦分类效果的影响,并分别与传统的集中式训练和单个客户端训练进行对比,实验结果表明联邦模型分类准确率相比单个客户端训练能够提高7%左右,在保护数据隐私前提下能达到集中式训练准确率的93%。 实际场景中不同客户端所拥有的数据存在较强异构性,会对联邦学习得到的全局模型性能带来一定程度劣化,使全局模型偏离真实的最优解。针对该问题本文提出两种思路:提高优质客户端更新在全局聚合中的占比、减少Non-IID数据对全局模型的影响,并根据两种思路分别对联邦聚合策略加以改进: 1.将客户端损失值引入聚合算法,分配给高损失值的客户端更高的聚合权重,希望更具训练价值的客户端为全局模型带来更快的收敛,通过实验进行对比验证,发现改进聚合策略后的模型在一定的参数设置下的识别准确率在IID场景和Non-IID场景都得到了不同程度的提升,同时加快了收敛速度; 2.在联邦聚合公式中引入控制变量对数据分布偏颇的客户端对全局模型造成的偏移进行补偿,针对中小体量样本数据集对客户端模型进行优化,加入压缩激励网络和批量归一化层,对比实验中改进后的联邦模型对肿瘤图像的分类准确率得到了更为稳定的提升。