查看更多>>摘要:目的 借助大数据平台,构建肝细胞癌(hepatocellular carcinoma,HCC)自动化巴塞罗那分期(Barcelona clinic liver cancer,BCLC)模型,以服务于临床诊疗及学术研究工作.方法 选取福建医科大学孟超肝胆医院 2020 年 1 月—2022 年 12月收治的HCC患者的临床资料,通过数据仓库技术(extract-transform-load,ETL)工具构建患者的标准化全维度数据集(每个病例含 700 个维度).选取 2020 年 1 月—2022 年 12 月收治的 1 076 例HCC患者,根据 2016 年BCLC分期标准,在数据集中提取肝性脑病、腹水、总胆红素、白蛋白、凝血酶原时间、肿瘤个数、肿瘤直径、门静脉癌栓情况、肝外转移情况、患者体力情况等 12 个相关维度,采用基于机器学习的自然语言处理和基于Python语言的XGBoost(eXtreme gradient boosting)模块等方法构建自动化BCLC分期模型.随机抽取 2020 年 1月—2022 年 12 月收治的HCC患者 191 例,进行既往病例测试.选择2020年1月—2022年12月收治的180例HCC患者,进行新增病例测试.由 2 名肝胆外科主治医师对测试病例进行人工分期审核,获得标准分期用于校正.比较模型自动化分期、病例记录分期及标准分期三者间差异,以观察模型的准确性和实用性.结果 基于大数据方法学成功构建HCC自动化BCLC分期模型,通过含 150 个病例的验证集进行验证,准确率为 93.33%,提示建模成功.既往病例测试结果提示,经标准分期校正,自动化分期准确率为 98.43%,错误 3 例,其中 0期 1 例、A期 2 例;记录分期准确率为 96.33%,错误 7 例,其中 0 期 2 例,A期 5 例.新增病例测试结果提示,经标准分期校正,自动化分期准确率为 95.56%,错误 8 例,其中 0 期 1 例,A期 1 例,B期 4 例,C期 2 例,D期 0 例;记录分期准确率为 96.11%,错误 7 例,其中 0 期 2 例,A期 1 例,B期 2 例,C期 2 例,D期 0 例.结论 HCC自动化BCLC分期模型高效、准确,在数据标准化方面尚有改进空间,值得向临床推广.