目的:由于强直性脊柱炎固有的异质性,需要针对不同人群制定个性化治疗。因此我们希望通过一种新的方法将强直性脊柱炎患者分为相互独立的亚组,便于后续个性化治疗的开展。 方法:我们根据2011年9月1日至2021年4月30日收集的356名强直性脊柱炎患者的数据集,通过无监督的K-means聚类算法,将人群分为若干个聚类,通过患者是否接受手术治疗反映临床预后,并通过生存分析判断聚类间的临床轨迹和需接受手术治疗的风险状况是否有显著差异。按照其临床轨迹和需接受手术治疗的风险状况定义高危人群。随后,拆分数据集为训练集与测试集,并训练两个机器学习模型对高危人群进行预测。一个模型为多层感知器,另一个模型为随机森林。单变量逻辑回归分析被用来确定具有显著P值的候选预测因素。LASSO回归方法被用来选择最佳预测变量子集。最后,将最佳预测变量子集分别输入两个预测模型中。最后通过测试集中的ROC曲线和混淆矩阵评价两模型的预测效果。 结果:356名强直性脊柱炎患者通过K-means聚类分析分为两个聚类。其中选择了以下4个代表性特征进行聚类分析,包括BASFI、BASDAI、骶髂关节炎评分、BASRI-hip。绘制两个聚类的无手术生存期K-M曲线以及累计手术风险曲线,可见两聚类间存在显著差异(p<0.001)。表明两聚类临床预后具有明显差异。按照接受脊柱或髋关节手术的累计手术风险高低将两聚类分别定义为高危组和低危组。测试集中两模型ROC曲线和混淆矩阵表明本研究中两个模型均有良好的预测效能,可能可以作为早期识别强直性脊柱炎高危人群的有力工具。 结论:本研究通过机器学习的算法开发了一个新的分类方法将强直性脊柱炎患者群体从内部分为两个差异显著的独立群体,其中高危组患者在近几年内有更大的可能性因为脊柱或髋关节病变进展而需要接受手术治疗。考虑到强直性脊柱炎的异质性,本研究可能有助于强直性脊柱炎患者的亚分类,并可能在未来实现更加个性化的治疗。此外,我们也探索了引起预后差异的可能因素,为未来的临床试验设计提供信息,以更好地探索疾病机制。