摘要
文章通过PolynomialFeatures方法获得高阶交互数据,应用CatBoost模型评估影响因素的重要性,引入Logistic回归对2型糖尿病进行识别并比较一阶数据和高阶数据的识别效果.CatBoost模型在对一阶变量的评估中,锻炼频率、血红蛋白、体质指数、年龄等得分较高,对高阶变量则是锻炼频率、锻炼频率×白细胞、锻炼频率×总胆固醇等得分较高,Logistic回归在2型糖尿病风险识别效果上高阶数据显著高于一阶数据.得出结论:2型糖尿病主要是多因素交互作用的结果,其中锻炼频率、体质指数、年龄等因素起着决定性的作用.
基金项目
安徽省高校自然科学研究项目(KJ2021A1055)