摘要
随着医疗领域信息化的发展,实验研究能够获得的各种类型的生物医学数据也变得丰富起来。人体本身便是作为一个生物医学数据的重要来源,包括有血压、体重、曾用药物数据、医生诊疗数据、医疗图像数据、血液数据、各种激素数据以及基因数据等,并且随着医疗技术的进步能够获得的生物特征数据将会更多。虽然能够获得的数据类型越来越丰富,但是由于隐私、采集代价昂贵、特殊样本稀缺等原因,生物医学数据往往具有样本量小、特征量少、样本高度不平衡等特点。 常规的深度学习模型如ResNet152、VGG都是建立在海量训练数据集训练的基础之上。对于生物医学这样的小样本数据,直接强行使用这些模型进行训练往往会导致过拟合和不能推广或者陷入局部最优等问题。针对此问题,本文尝试采用更多小样本学习领域的知识方法来解决小样本生物医学数据的训练问题。本文分别从模型构造,知识迁移,数据扩展三个不同方面进行了研究分析。在模型构造方面本文提出了DEM模型(AnDeepEmbeddingModelforFewandImbalancedBiomedicalData),该模型基于度量学习并引入了特征选择(FeatureSelection)和特征嵌入(FeatureEmbedding),并且使用KNN(K-Nearestneighbors)、CSDNN(Cost-SensitiveDeepNeuralNetwork)、SMOTE(TheSyntheticMinorityOversamplingTechnique)、FSSNN(SiameseNeuralNetworkwithFeatureSelection)完成了充分的对比研究。在知识迁移方面,本文对异构迁移学习进行了深入研究,提出了DDA模型(ADeepDomainAdaptiveModelForAutismDetection),模型中引入了域自适应层、域混淆损失。为对本文提出的模型性能进行验证,本部分在对比实验中引入了前人的研究工作,主要包括ResNet-152,STN(HeterogeneousDomainAdaptationviaSoftTransferNetwork),DDC(DeepDomainConfusion:MaximizingforDomainInvariance)。在数据扩展方面,本文提出了T-SIRGAN模型,通过SIR传染病模型和GAN(GenerativeAdversarialNets)对抗生成网络模型对训练数据集进行扩展,然后使用Transformer模型完成新型冠状病毒的流行趋势预测。 本文通过多组实验以及大量的对比实验都表明本文所提出的模型取得了较好的性能。其中DEM模型在三种不同的高度不平衡数据集上都表现出明显的优势;DDA模型在自闭症检测任务中也优于前人的研究;T-SIRGAN模型在新型冠状病毒疾病流行趋势预测任务上,整体预测趋势和真实数据基本保持一致。