摘要
中国是世界上最大的菌类作物生产国,菌物产业在我国农业经济体系中占有重要地位。但是,菌类作物的毒性判别问题是生产和研究中急需克服的难题,由于有毒菌类作物存在隐蔽性,差异不明显等特点,传统的毒性分类方法面临巨大的挑战。因此,本文选取了加州大学欧文分校采集的环柄菇数据集、吉林农业大学食药用菌教育部工程研究中心测序得出的黑木耳核糖核苷酸序列以及由菌类基地实际采集的菌类作物胶陀螺三个数据集作为研究对象。通过改进机器学习和深度学习算法,为菌类毒性判别提供了精确的分类依据,本文主要的研究工作如下: (1)对传统的人工智能算法进行了优化和改进。本文提出了改进的基于机器学习的AdaBoost模型对环柄菇数据集进行毒性判别。在传统模型的基础上对样本权重进行了调整,避免了因样本权重过大对弱分类器造成影响,使用混淆矩阵中FN值和FP值的比值作为惩罚项,添加到了更新权值的公式中,解决了样本权重过大的问题。实验结果表明,改进后的模型的分类准确率高达99.93%,在一定程度上解决了菌类作物的毒性判定问题。 (2)为了验证模型的鲁棒性,本文将采集到的胶陀螺数据集作为扩充实验。但由于该数据集样本类别分布不均匀,有毒样本占比过低,导致改进的AdaBoost模型在该数据集上效果不佳。本文又提出了改进的基于机器学习的XGBoost模型,使用直方图算法寻找树模型最优切分点,提高了模型的运算速度,针对样本类别的数目差距较大的问题,在损失函数中加上了针对有毒样本的权重系数,通过贝叶斯估计求解超参数。通过对比实验,改进后的XGBoost模型的准确率为93.4%,能够对样本类别分布不均匀的菌类作物数据集实现精准的毒性判别。 (3)考虑到某些菌类作物不能通过外观、产地等特征进行毒性判别,本文使用了吉林农业大学食药用菌教育部工程研究中心测序得出的黑木耳核糖核苷酸序列作为新的数据集,但传统机器学习算法无法对核苷酸序列进行分析,于是本文提出了改进的基于深度学习的Transformer模型。本文改进了Transformer模型的位置编码,使模型能够分析到核糖核苷酸序列间的信息,使用二分类交叉熵损失函数通过标志位[CLS]输出毒性判别结果。经过实验,本章提出的改进的Transformer模型在对病毒判别任务上的F1值达到75.11%,证明了从核糖核苷酸序列方向预测菌类毒性的可行性,为菌类毒性判别提供了新的解决方法。