基于大数据挖掘的医疗保险欺诈识别模型与应用研究

刘力宾¹

扫码查看

作者信息

1. 河北工业大学
折叠

摘要

自社会保障制度建立以来，我国一直致力于建立公正、普惠、全民参与的医疗保险系统。截止目前，我国医疗保险参保人数已经达到13.44亿人，覆盖率超过95%，基本实现了全民参保的目标。然而随着医保覆盖范围的不断扩大，以各种手段非法套取医保基金的欺诈案件也层出不穷，每年因医保欺诈造成的损失约占国内医疗费用的7%-8%，对医保基金的安全和广大人民的健康医疗保障造成了巨大的威胁。因此，准确高效的识别医保欺诈行为对于保障公民生命健康，推动我国社会保障体系稳定发展具有重要作用。本文重点研究我国医疗保险欺诈识别问题，针对我国医疗保险欺诈识别的问题特征，采用大数据挖掘技术对我国真实医保大数据进行深入的挖掘和分析，解决医保欺诈识别面临的数据规模过大、结构复杂、不平衡等问题。首先分析问题特征，结合医疗保险业务背景从费用、医院、疾病和行为四个角度入手结合文本挖掘技术进行医疗保险欺诈特征构建，然后基于EasyEnsemble集成采样方法与LightGBM算法构建医疗保险欺诈识别模型，并与SVM、随机森林、XGBoost等方法对比识别效果，进一步发掘并分析欺诈关键特征，发现欺诈行为规律，提出科学合理的反欺诈建议。最后本文使用我国253家医院的836万条真实医保就诊脱敏数据进行实验测试。测试结果显示模型ACC为0.86，AUC为0.81，欺诈样本识别率为82%，在特征维度仅为223维的情况下实现对欺诈人员的有效识别。进一步通过关键特征分析，发现费用特征是反映参保人欺诈行为最为重要的一类指标，在审批金额上从总额到每单、每次金额上均有不同的差异，虽然欺诈人员整体审批金额较高，但每单的审批金额相对正常，因此欺诈规律为从保证每单报销金额的正常入手，拆分多次、多单进行报销，在整体上获得更高的医保审批金额；在各类费用明细方面，药品费与治疗费占比最高，欺诈人员在治疗费上要高于正常参保人，因此其欺诈手段为虚假诊疗骗取医保基金；医院特征排名较高则反映了我国医患合谋欺诈的严重性。因此，在我国医疗保险欺诈识别和治理过程中，不仅要加强医院申报、审批流程的监管，还要避免单一视角的分析而忽略医院、药店、患者间的合谋欺诈，应从多角度、多层面入手，完善医疗保险监管与审核机制，建立科学合理的反欺诈体系，推动我国社会保障体系公正、健康、可持续的发展。

关键词

医疗保险/欺诈识别/大数据挖掘/LightGBM算法

引用本文复制引用

授予学位

硕士

学科专业

工业工程

导师

李杰

学位年度

2019

学位授予单位

河北工业大学

语种

中文

中图分类号

段落导航