基于集成学习的网络信贷违约预测
作者单位:西南大学
学位级别:硕士
导师姓名:陈守全
授予年度:2023年
学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:个人信贷是金融机构的主要业务之一,然而,由于自身经济条件的不同、消费观念的不同等因素,个人信贷违约风险也较高。对于金融机构来说,个人信贷违约会对其经济利益造成严重影响。据银监会统计,2022年末,银行业金融机构不良贷款余额3.8万亿元,较年初增加1699亿元,因此如何准确地预测客户的违约情况避免不良贷款的增加成为了一个非常重要的研究方向,这对于金融机构进行风险管理和决策具有重要意义。在本文的研究中,以中原银行提供的经过脱敏仿真后的网络信贷数据集为研究对象,首先阐述了个人信贷违约的研究背景和目的以及相关理论和算法基础,再对该数据进行了描述性统计,探索性数据分析特征变量和标签之间的关系,然后对数据进行了清洗,包括文本特征进行转换和编码,以及对缺失值、异常值进行处理,在构建衍生特征后使用过滤法+嵌入法进行特征选择,经过筛选后,删除了5个特征,分别是f0、f5、pub_dero_bankrup、sub_class、house_exist,大大提高了模型性能,然后采用随机过采样、SMOTE采样、ADASYN过采样、SOMTE-Tomlink综合采样等六种方法中选出了在Light GBM模型下AUC值最高的采样法SOMTE-Tomlink综合采样法来处理不平衡数据。之后使用了不同的机器学习算法进行了建模,包括基于bagging思想的随机森林、基于boosting思想的XGBoost、Cat Boost、Light GBM算法对网络客户信贷违约与否进行预测,在模型训练时使用网络搜索的方法进行超参数调整,对不同超参数组合的表现使用5折交叉验证进行评估,以此选择表现最佳的超参数组合作为最终模型的超参数设置。除此之外,还通过加权的Voting、Stacking算法将多个模型进行整合,以提高模型性能。在本文的加权的Voting算法中,以随机森林、XGBoost、Cat Boost和Light GBM四个模型为基模型,对模型得到的结果进行加权软投票,而Stacking算法中则将随机森林、Cat Boost、Light GBM、XGBoost四种基模型作为第一层模型进行预测,然后将它们生成的新特征作为第二层的输入,最终输出预测结果,并用准确率、查准率、召回率、F1值、KS值、AUC值作为模型评估准则对以上六个模型进行比较评估。通过对比不同模型在数据集上的实验结果显示,发现XGBoost在召回率指标上表现最优,Light GBM在准确率和查准率上表现最优,Cat Boost在各个指标上三个模型表现均衡,Voting模型下各评估指标值介于和前四个基模型下评估指标之间,并且Stcking模型下核心指标AUC值和KS值是所有模型中最高的。说明Stacking模型相对来说集成了四种算法的优点,在保证准确率的同时,进一步的增加了模型的其他性能。因此选择Stacking模型作为最终的违约风险预测模型,用于预测借款人是否会发生违约行为。这一研究为银行、金融机构等提供了一种可行的方法来准确预测客户的违约情况,从而降低了信贷风险。