摘要
癌症的诊断与治疗是目前全人类所共同面对的难题。现如今,全球范围内癌症死亡率与日俱增,对癌症进行早期诊断是降低死亡率的有效手段。目前癌症的常规诊断方法有癌症标记物、病理学诊断和影像学诊断等,但这些方法有其相应的局限性,如癌症标记物无法同时满足敏感性、特异性和易于监测等要求;病理学、影像学诊断结果依赖于医生的临床经验,存在漏诊误诊风险。近年发展起来的高光谱显微成像(HMI)技术将高光谱成像与显微成像相结合,既可以提供待测组织的图像信息又可以提供其光谱信息,已在癌症组织鉴别方面有初步应用。此外,将HMI与机器学习算法相结合能够辅助医生进行早期临床诊断,在未来具有广阔应用前景。 本文研究基于HMI技术和机器学习的皮肤癌诊断,阐述了HMI技术原理、HMI系统搭建、HMI数据采集和分析软件,以及HMI与机器学习相结合实现皮肤癌诊断。研究内容和研究成果分四个方面来论述: (1) HMI系统搭建。利用高光谱相机、高精度步进电机型自动平台、卤钨灯光源、物镜等器件搭建推扫式HMI系统,系统光谱范围为465.5-905.1 nm,共151波段,光谱分辨率约为3nm,视场为400.18 μm× 192.47 μm,系统放大率为28.15×,实际分辨力范围为:1.10-1.38 μm。同时利用所搭建的HMI系统分别采集鳞状细胞癌(SCC)、基底细胞癌(BCC)和恶性黑色素瘤(MM)三类皮肤癌的HMI数据。 (2)基于HMI光谱数据和机器学习建立SCC Ⅰ期、Ⅱ期和Ⅲ期的鉴别模型,并应用于MM分期对算法进行验证。首先对光谱数据分别进行一阶导数(FD)、二阶导数(SD)、多元散射校正(MSC)和标准正态变量变换(SNV)的预处理。其次利用主成分分析(PCA)和偏最小二乘(PLS)对光谱数据进行降维。然后将降维后的样本数据利用随机法、自助法和留出法划分出训练集和测试集。最后将训练集和测试集分别输入极限学习机(ELM)、支持向量机(SVM)、决策树和随机森林(RF)分类模型中学习和验证。结果表明:利用PLS降维效果最佳,前6个主成分贡献率累计为96%,能够在最大程度上保留原始光谱数据的特征。光谱数据预处理方法中从好到差依次为:SNV、MSC、FD和SD,样本集划分方法中自助法结果最差,其次为随机法,留出法最佳,分期模型中RF和ELM优于SVM和决策树。综合分析,最优模型分别选取SNV预处理,PLS降维,留出法划分数据集,RF分期模型,最高分期准确率为96.4%,KAPPA值为0.95。利用上述最优方法进行MM分期结果准确率为99.8%,KAPPA值为0.997。本文还对不同区域光谱对结果的影响进行讨论,结果表明选取细胞核的光谱可提高分期结果准确率和KAPPA值,准确率最高可达99.8%,对应KAPPA值为0.997。因此本文认为,利用细胞核部分的光谱数据可以更好地进行癌症分期,可极大减少数据量,降低数据复杂性。 (3)基于HMI图像数据和机器学习实现SCC、BCC和MM的分类。首先分别提取皮肤癌图像数据的颜色距、HSV颜色空间、灰度共生矩阵(GLCM)、局部二值模式(LBP)和方向梯度直方图(HOG)特征。其次对上述五种特征分别进行PCA和PLS降维,其中PLS效果更佳。然后验证五种图像特征不同组合的准确率,确定颜色距、GLCM和LBP特征的组合准确率更高(准确率:80%,KAPPA值:0.70)。最后依次选取三种不同的样本集划分方法划分出训练集和测试集,分别建立基于ELM、SVM、决策树和RF的图像分类模型。根据图像数据实现对三类皮肤癌组织分类中,采用留出法划分样本集,SVM进行分类的准确率最高为85%,KAPPA值为0.77。 (4)基于MATLAB设计HMI数据采集与分析软件,建立了图形化用户界面。数据采集软件分为三大模块,分别为HMI系统控制及数据采集模块、HMI数据显示与处理模块和HMI数据保存与软件退出模块,可实现对高精度步进电机型自动平台步长控制、数据背景噪声矫正、波段相关性分析和数据裁剪。数据分析软件分为数据提取与查看和高光谱显微成像数据处理两大模块,可以实现光谱数据可视化、感兴趣区域选择、数据预处理和分类算法调整。