咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Stacking集成学习的贷款违约预测模型研究 收藏
基于Stacking集成学习的贷款违约预测模型研究

基于Stacking集成学习的贷款违约预测模型研究

作     者:杜帅帅 

作者单位:东北财经大学 

学位级别:硕士

导师姓名:夏伟

授予年度:2022年

学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:贷款违约预测 机器学习 LightGBM Stacking 模型融合 

摘      要:近年来,随着现代化科技和信息技术的蓬勃发展,金融行业也开始推陈出新,加快推进传统金融服务智能化的进程,致力于在业务办理的流程、业务范围的开拓和客户服务的提升等方面实现智慧金融的转型,在金融科技加持下的智能风险管控已然成为了金融行业得以健康发展中不可或缺的一环。准确识别贷款中潜在的风险,对于违约性高的贷款者不发放贷款,或对已发放贷款的用户进行实时跟踪,以便更有效地保证贷款机构的贷款利益,是智能风控管理领域的核心问题。因此,利用贷款者海量的数据信息和数据挖掘技术来对贷款用户的违约行为进行预测,已是一个非常重要的研究课题。在了解贷款违约风险研究现状和机器学习中的分类算法后,基于信贷平台的贷款记录数据,对如何建立一个分类效果好的贷款违约预测模型展开了研究。本文对于该问题的研究主要包括以下三个方面:首先,是对数据进行探索性分析和特征工程的处理。在数据的探索性分析中,主要从数据的类别特征和数值型特征两方面对数据进行可视化展示,从绘制的图形中简单分析一些特征之间的关系,对数据集有一个初步的认知。之后就是对数据进行特征工程的处理,主要包括三个方面,一是对数据的唯一值、缺失值和异常值的预处理;二是根据特征之间的关系和业务知识的理解进行特征的衍生;三是利用方差选择法、递归特征消除法和相关系数法即Filter和Wrapper组合式算法来对数据进行特征选择。其次,使用处理后的数据集,建立基于逻辑回归、KNN、随机森林、XGBoost和LightGBM这五个机器学习分类算法的贷款违约预测模型。在建模前使用了SMOTE算法对数据集做了平衡处理并按照4:1的比例将数据集进行划分用于模型的训练和预测;在建模过程中使用了五折交叉验证训练模型,和贝叶斯优化算法进行模型参数的调优,以求最大限度地发挥模型的训练效果;在建模后使用准确率、精确率、召回率、F1和AUC这个五个评价指标来对模型的预测性能进行比较,选择出具有较好预测结果的单一模型。最后,为了进一步提高模型的预测性能和弥补单一模型之间的不足,本文使用了 Stacking集成学习算法来对测试集上预测效果最优的四个异质的单一模型LightGBM、XGBoost、RF和KNN进行双层融合。依次选用其中的一个模型作为元模型,剩余的三个作为基模型,分别构建了基于LightGBMtacking、XGBoosttacking、RFtacking 和 KNNtacking 集成学习的贷款违约预测模型,使用五个评价指标来对融合模型和单一模型之间进行比较,选择出本文结果最优的贷款违约预测模型。为了验证本文构建的最优模型的适用性,将其与其他文章中提出的融合模型进行了对比,并在最后输出最优模型的特征重要性。通过上述对贷款违约预测模型研究的结果可知:在数据的描述性统计和特征工程中,了解到本文使用的数据集是一个不平衡的数据集(违约用户与未违约用户的比例为1:4),初步判断出贷款等级、贷款金额、贷款期限、贷款利率和fico所属上下限范围等与贷款用户是否违约有着密切的联系,经过Filter和Wrapper组合式算法处理之后共保留30个特征,其中包括原始特征18个,衍生特征12个。在对建立五个单一模型的预测结果进行分析,发现对数据集进行平衡化的处理和对模型的参数进行贝叶斯优化可以提高模型的预测结果,在测试集上模型预测性能由高到低为分别为LightGBM、XGBoost、随机森林、KNN和逻辑回归。在对单一模型使用Stacking集成算法进行双层融合后,结果表明融合模型(除KNNtacking模型外)的预测结果要普遍高于单一模型,而融合模型KNNtacking与单一模型KNN相比预测结果也得到显著性提高,故对单一模型进行Stacking集成可以提高模型的预测性能,此外LightGBMtacking融合模型的分类效果是本文所有研究模型中最优的,从该模型的特征重要性度量中发现,贷款者的信用水平、债务状况、收入水平以及资金流转等因素的相关指标对贷款者是否违约有着重要的影响。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分