摘要
肺癌是当前癌症死亡的主要原因,是当今主要的公共卫生难题。早期预防是降低肺癌死亡率的关键。肺癌的发生是一个复杂的生物过程,涉及许多因素、阶段和基因表达的改变,大量的文献证实了miRNA与肿瘤的发展和转移复发的关系。自从miRNA被检测到以来,它们已被证明稳定地存在于血清中,可作为早期诊断肿瘤的标志物。鉴于癌症数据的数据量大、维数高、结构复杂,使用机器学习和其他大数据算法来整合和分析肿瘤基因组数据,建立非小细胞肺癌的早期诊断和性别背景下的肺癌分类治疗模型,研究病例早期的诊断情况和及时确定癌症分型治疗方案,能够为后续争取治疗时间,这在理论研究与实践中都有着一定的价值。 首先,本文从癌症基因组图谱TCGA数据库下载肺腺癌和肺鳞状细胞癌两种癌症类型的miRNA数据和对应患者的临床数据。将癌症Ⅰ、Ⅱ发展阶段作为早期样本,提取了miRNA数据、癌症发展阶段、性别信息,同时删除临床信息不全、存在两种或多种并发癌症等其他现象的154个样本数据。在1881个miRNA标志物中利用差异基因法和T检验分析提取了正常样本与确诊样本之间的27个差异miRNA,结合嵌入式特征选择方法对miRNA标志物进行重要性排序找到了与肺癌早期相关的17个miRNA标志物,对肺癌的早期筛查标志物有着良好的参考作用。 然后,利用特征提取到的17个miRNA标志物数据,采用线性支持向量机、随机森林算法、XGBoost、LightGBM、CatBoost法分别进行肺癌的早期诊断。结果显示,与传统的Fisher判别方法相比,机器学习方法下的诊断准确率更高,均大于90%,机器学习模型在整个过程中显示出良好的分类性能。进一步,本文加入性别因子,建立了早期肺癌确诊分类模型(即确诊患者是肺腺癌还是肺鳞癌状细胞癌患者)。选取早期诊断模型下准确率排名较优的支持向量机、随机森林算法、LightGBM构建确诊肺癌下的分类模型,为早期确定治疗方案及时调整治疗方向提供建议。结果显示,在有性别因子下的早期肺癌诊断分类模型取得的结果要优于无性别因子的早期肺癌诊断分类模型上取得的结果。 最后,为避免单一模型在预测领域泛化能力较弱的缺点,本文结合Stacking融合算法建立非小细胞肺癌的早期诊断模型和性别背景下的肺癌分类诊断模型。结果显示,融合模型下的分类准确率均要高于单一模型。