摘要
人体肠道微生物是一个非常庞大的系统,肠道微生物通过代谢产物和宿主进行信息交换,在人一生的成长和衰老过程中发挥着多种重要功能。肠道微生物群比人体细胞的数量高一个数量级,据计算大约有1014个细胞组成,由于肠道菌群的庞大和复杂性,以及对饮食、地域、疾病的易感性,使得对肠道微生物的定量研究充满了困难,本文主要通过机器学习对人体肠道微生物样本进行定量研究,通过微生物丰度数据建立宿主年龄和性别预测模型,并识别年龄和性别特异性微生物。本文主要内容如下: (1)通过斯皮尔曼相关系数对样本数据集进行降维,对1580种微生物祛除冗余项,留下19种具有代表性的微生物,输入机器学习回归模型。利用肠道微生物丰度数据预测样本的年龄,对预测值用R2和平均绝对误差评价,在Adaboost、随机森林模型以及Xgboost模型中,随机森林模型效果最好,R2=0.579,MAE=13.45。利用特征重要性得分识别与宿主年龄高度相关的微生物,识别双歧杆菌和居瘤胃解纤维素菌(Cellulosilyticum),并在百岁老人的样本中发现了和老年人不同的肠道微生物结构,且这种变化不连续。 (2)通过机器学习分类模型对样本数据集进行性别分类,本文采用了高斯贝叶斯模型、K-近邻模型、随机森林模型、自适应提升算法以及梯度提升决策树模型构建分类器。其中,随机森林分类模型效果最好,平均准确率达到79.5%。通过调节超参数的变化,对随机森林模型的准确率和F1得分进行检验,确保随机森林分类模型的稳定性。通过特征重要性得分识别对分类模型贡献较大的微生物,在前20种微生物中,有8种微生物属于厚壁菌门,有8种属于拟杆菌门,有3种属于放线菌门,有1种属于疣微菌门。同时,居瘤胃解纤维素菌(Cellulosilyticum)在百岁老人的样本中也发现了两性差异。