摘要
近年来,随着中国经济下行压力的不断增大,企业作为经济市场主体经营状况逐步恶化,同时企业进行外部融资的成本也在不断增大,导致企业频繁发生贷款违约事件,严重损害到商业银行等金融机构的盈利水平与稳健经营能力.基于这样的背景,本文通过机器学习方法构建企业贷款违约风险识别模型,以识别出具有贷款违约可能性的企业,帮助金融机构提升风险管理能力. 首先,本文对收集到的原始数据进行预处理,采用递归特征消除法以及基于L1正则化的逻辑回归进行特征选择得到最优特征子集,并通过SMOTE过采样与TomekLink欠采样相结合的方法对数据进行平衡化处理.其次,基于机器学习方法构建企业贷款违约风险识别模型,在处理后的数据集上依次构建SVM、XGBoost、KNN、ExtraTrees模型,并结合交叉验证与GridSearch得到各个模型的最优参数.为进一步提升企业贷款违约风险识别模型性能,在以上四个单一模型的基础上,构建了Stacking融合模型.结果表明,综合F1、AUC、G-mean、Accuracy四个评价指标,Stacking融合模型性能优于其他的单一模型,对贷款违约企业识别更加准确.最后,进行指标重要性验证以及重要特征筛选.在选择指标时,大多数研究只选择特定的财务指标进行企业贷款违约研究,而本文研究结果表明,无论是单一模型还是融合模型,加入所有权结构、高管薪酬、以及审计意见等代表公司治理结构的指标能明显提升企业贷款违约风险识别模型性能.同时在使用ExtraTrees以及XGBoost模型进行重要性特征筛选时,两种模型都显示排名前三的特征依次为留存收益资产比、净利润综合收益占比以及审计意见类型,即这三项特征有助于较早发现企业潜存的贷款违约风险.