摘要
松子不仅是造林育种的重要载体,而且是一种深受消费者喜爱、富含对人体有益不饱和脂肪酸的常见可食用坚果。但是,食用品质较差或不可食用的松子会导致味觉障碍甚至出现松子综合症,进而影响到人们的身体健康。我国是世界上松子的主要出口国,对于构建快速便捷的松子分类识别及质量监督体系有着较为迫切的需求。然而,我国对于松子无损分类的研究较少,尤其是多个品种的松子无损分类研究。传统化学检测方法耗时较长,需要专业的设备,且对样本具有破坏性;传统的形态分析过分依赖于检测人员经验,分类识别结果容易受到主观经验的影响。因此,如何方便、快速、无损和准确地进行松子分类识别,对松子食品安全来说是一项值得研究的问题。在上述背景下,本论文以云南松(Pinus yunnanensis)、湿地松(Pinus elliottii)、白皮松(Pinus bungeana)、黑松(Pinus thunbergii)、黄山松(Pinus taiwanensis)、马尾松(Pinus massoniana)和华山松(Pinus armandii)等7种松子为研究对象,通过采集松子的基因序列、图像数据和近红外光谱数据,利用生物信息学、机器学习和深度学习等技术,开展了从宏观到微观的松子无损分类研究。主要研究内容及结果如下: (1)基于分子标记技术的松子种类标注。本研究主要采集了 7 种松子的ITS2和 rbcL基因序列,通过与美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的 GenBank 数据库进行基因序列比对,根据序列覆盖率和相似度实现了对 7种松子的标注。实验结果表明,7种的ITS2和 rbcL基因序列的一致性大都达到了 100%,可以较好的验证松子种类标注的准确性。 (2)基于机器视觉的松子分类模型研究。本研究主要采集了 7 种松子的303张原始图像,利用Sobel算法检测松子的边缘位置,通过图像旋转将图像扩增到 1,515 张,并将扩增后的图像进行了灰度化。基于预处理后的图像,本研究分别采用VGG16、VGG19、Xception、InceptionV3和ResNet50等5种卷积神经网络模型提取松子的图像特征,并基于图像特征构建基于机器视觉的松子分类模型,以研究不同深度特征提取方法对分类模型构建的影响。实验结果表明,基于InceptionV3模型提取图像特征所构建的松子分类模型性能更为理想,模型准确度为 0.964。这表明了基于机器视觉的松子分类模型具有较好的预测准确度,可以应用于松子外部特征的无损分类中。 (3)基于近红外光谱的松子分类模型研究。本研究采集了7种松子的近红外光谱数据,分别采用导数法、SG 卷积平滑法、多元散射校正、标准正态变量变换、最大最小归一化方法及其组合对原始近红外光谱数据进行预处理。通过决策树、随机森林、朴素贝叶斯、BP神经网络和支持向量机等5种机器学习算法构建基于全光谱的分类模型,以研究不同预处理方法和不同机器学习算法对分类模型构建的影响,并确定相对较优的光谱预处理方法和分类模型。实验结果表明,原始光谱数据经过标准正态变量变换+多元散射校正+SG 卷积平滑法组合预处理后建立的随机森林模型性能更佳,准确度为 0.9929。为了进一步挖掘分类模型的最优敏感波段,本研究采用了滑动窗口算法、遗传算法和蝴蝶优化算法构建基于敏感波段的松子分类模型,通过比较模型的性能以确定最优的敏感波段提取方法,并给出适用于松子分类模型构建的最佳敏感波段范围。研究结果表明,经遗传算法提取敏感波段后建立的松子分类模型性能更为理想,光谱数据的数量减少了 51.6%,构建的基于敏感波段的松子分类模型准确度提升到 0.9981,最终提取的 6 个最佳敏感波段区间范围为:782.36~845.92 nm、905.28~982.10 nm、1,074.04~1,371.82 nm、1,429.29~1,557.20 nm、1,900.83~2,009.87 nm和 2,436.78~2,618.92 nm。 本研究分别验证了分子标记、机器视觉和近红外光谱等不同技术在松子分类中的应用潜力,不仅为快速、无损、准确地松子分类识别提供了实用方法,而且对其它坚果的分类识别提供了新的思路和理论基础。