摘要
我国是世界范围内主要的煤炭生产大国,就我国煤矿目前情况而言,主要采取井下开采的方式。由于工业生产装备水平不高,工业技术相对落后,造成矿工职业病的防治变得极其困难,因此,对矿工的健康状况进行早期判断是职业病防治的重要前提。传统的应用场景中,矿工的职业健康主要依靠经验丰富的医生通过体检报告中的各项体征信息来分析与评估,但存在研究分析的医学数据复杂冗余信息较多,难以判断出数据属性之间潜在的联系等问题。针对以上不足,本文提出数据归约方法结合分类器对基于体征参数的矿工健康状况进行辨识研究,重点围绕辨识模型、特征的构造与重组、单层次属性筛选和多层次特征精简等方面展开深入研究。 (1)研究了矿工健康状况的较佳辨识模型。对原始的21个属性矿工数据进行了定性统计推断分析,将ABC、CS、FA、灰狼优化(GreyWolfOptimizer,GWO)和GSA作为支持向量分类(SupportVectorClassification,SVC)最优参数的智能寻优算法,利用原始矿工数据分别建立基于智能优化SVC的矿工体征异常辨识模型,同时确定了较优的数据预处理方法和核函数,并得到较佳的智能优化SVC辨识模型。实验结果表明,在[0,1]归一化预处理方法和RBF核函数的条件下,智能优化SVC都能取得较优的辨识性能,其中,GWO-SVC辨识模型可以保证在较高平均辨识准确率(91.75%)的基础上,具有较低的平均时间成本(2.5235秒),最高辨识准确率达到92.5%,搜索到的最优参数cost为33.9319,gamma为0.763,总体错误辨识的样本主要集中在掘进和选煤工区。 (2)研究了基于特征构造与重组的辨识。考虑到原始体征数据中存在一定数量直接影响模型辨识精度的潜在特征,基于此,在原始数据属性集合中分别加入BMI、PP、MAP和RPP生理指标特征、矿工基本资料信息特征及它们之间的组合特征,来扩充和改造原始21个属性的矿山职工数据。构建智能优化SVC辨识模型,并根据不同评价指标来获取最终的新特征数据集,实验表明,较原始属性参数数据,连续型特征的重组数据同时提升了优化SVC算法的平均辨识精度(92.43%)和常用机器学习算法模型的性能,在连续型特征重组的SVC模型中,GWO-SVC的多次实验的平均辨识准确率都为92.5%,十分稳定,其中,第6次实验的时间成本最低,为2.329秒,此次最好结果对应的最优参数cost为39.3192,最优参数gamma为0.2229。 (3)研究了基于单层次属性筛选方法的辨识。针对新构造并补充特征后的数据存在一些人工无法判断的冗余属性信息,将单层次数据归约方法用于重要属性筛选的可行性分析,对比基于PCC和SCC的相关性分析、LPS及mRMR之间的无模型属性约减方法,利用RF、EN、SVM-RFE和NCA模型学习方法的训练来去除无用和冗余的属性信息,比较了不同模型学习约减方法之间、模型学习约减方法与未筛选数据的GWO-SVC模型的平均辨识评价指标,确定采用NCA模型以获得较好的辨识性能与较低的时间成本,平均辨识精度为96%,且其只保留4个重要属性,NCA约减后的特征属性数据同样适用于其他机器学习分类算法并提升了它们的模型辨识能力。 (4)研究了基于多层次特征精简策略的辨识。以平均辨识精度递减顺序联合无模型学习和模型学习算法,分别构建基于无模型联合模型学习、无模型学习之间、模型学习之间归约策略作用于矿工体征数据的精简,并依次建立基于GWO-SVC分类器的辨识模型。详细比较了不同类型多层次精简策略下的模型性能,也同时与单层次数据归约方法的性能进行了对比,使用精简出的属性数据建立常规机器学习模型验证了较优精简策略的普适性。利用EN-mRMR归约策略得到的6个特征数据结合GWO-SVC分类器,获得了最高的平均辨识准确率(97.38%),比未筛选提升了4.88%,时间成本(1.4906秒)降低了1.113秒,比单层次筛选提升了2.75%,时间成本降低了0.4297秒,精简出的较优特征为{DBP,ALT,CHOL,GLU,TG,RPP},数量分别仅为未筛选属性的24%和单层次筛选结果的50%。 本文为职业健康的早期判断提供了一种新思路与方法,实验结果表明,多层次数据归约结合GWO-SVC应用在基于体征参数的矿工健康状况辨识是可行的,相较于传统辨识方法,本研究利用较少的特征就能够实现矿工健康状况的精准且有效辨识,研究结论可为矿工职业健康的早期智能筛查、智能健康管理、疾病的预防提供参考依据,实现矿工健康提前干预的智能化,降低患病风险。