查看更多>>摘要:在近红外光谱(NIRS)波长筛选过程中,当变量数目远大于样本量时,特征波长的选择是一个极具挑战性的问题.Lasso与Elastic Net算法虽被用于大维小样本数据的变量选择,但二者均以最小平方误差作为损失函数的度量方法来选择特征变量.因此,当样本中含有异常点时,经两种算法建立的模型对异常点更加敏感,导致模型向异常点偏移,鲁棒性降低.针对上述问题,采用Huber函数作为损失函数,提出了 Las-so-Huber 法进行近红外特征波长选择,结合偏最小二乘(PLS)方法建立安胎丸质控指标成分的定量校正模型,并与全波长建模、Lasso与Elastic-Net方法波长选择后建模的模型性能进行对比.本实验采集21批安胎丸的近红外光谱数据共116条,其中101条数据作为校正集,采用留一交叉验证法对模型进行内部验证,另外15条数据则作为验证集用于外部验证.对于校正集中的异常光谱,使用基于主成分分析(PCA)的马氏距离法(MD)进行检测.以安胎丸的质控指标成分之一阿魏酸为例,采用Lasso、Elastic-Net和Lasso-Huber方法分别筛选了安胎丸样品无异常光谱中69、155和87个特征波长.其中Lasso-Huber法结合PLS建立的预测模型效果最佳,外部验证的R2p和SEP分别为0.953 1和0.058 7.此外,通过对校正集中是否包含异常光谱的校正模型预测性能对比发现,Lasso-Huber法在包含异常光谱的建模中更具优势.结果显示,Lasso-Huber 算法优选出最佳波长点数为88,结合PLS建立的模型性能R2v为0.967 3,而Lasso方法的R2v为0.840 5,Elastic-Net方法的R2v为0.834 7,全波长建模的R2v为0.852 0.可见,在含有异常光谱的样本中,Lasso-Huber法不仅减少了特征波段的数量,同时降低了算法对异常光谱的敏感性,提高了模型的准确度和鲁棒性.从简化模型的角度上比较,Lasso法和Elastic-Net法的建模时间分别为61.826 0和79.959 9 s,而Lasso-Huber建模时间仅为1.360 8 s,因此,该算法更有望未来集成于实际生产应用的近红外光谱建模软件中.