基于机器学习的个人信用违约风险预测
作者单位:湖南大学
学位级别:硕士
导师姓名:王小燕;蔡建河
授予年度:2022年
学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:信用风险 logistic回归 随机森林 自适应Lasso XGboost
摘 要:我国作为世界第二大经济体,社会经济自改革开放以来取得了巨大发展,而目前经济也处在从高速度发展转化为高品质发展的新阶段。国内有越来越多的人选择使用信用卡进行超前消费。作为我国金融业中的重要的一环银行业,其主要业务收入是来源于信贷借款业务,因此如何有效地度量可能发生的违约风险就显得十分重要。通过对国内外的文献研究发现,国外对信贷违约识别研究起步较早,并且方法较为完善,而国内研究起步相对较晚,在模型建立指标选择方面有些不足。因此要推动和推进我国银行业的高质量发展,健全我国银行业信用管理体系,并构建一个适应我国银行业的信用模型,就显得愈发重要。本文就科赛网站上公开的从2015年到2017年拍拍信贷数据集进行数据处理与分析,该数据集拥有21个变量。首先进行数据的预处理,将因变量用户的逾期和未逾期的状态记为1,0。并将分类变量转化为哑变量,并做同序化处理,将显著影响逾期的情况记为1。并且检查数值变量是否存在缺失值和异常。之后对进行建模分析。通过对前人的研究中的各类信用评估模型对比分析后,本文最终选择了XGboost模型,基于随机森林-logistic模型,自适应Lasso-logistic模型,以及创新性的提出了基于随机森林-自适应Lasso-logistic模型。并选择混淆矩阵,准确率,查准率,召回率,KS曲线,ROC曲线等指标对模型进行对比分析。最终发现具有变量选择的能力的基于随机森林-自适应Lasso-logistic模型是有较好的个人信用违约风险预测能力,效果与普通logistic模型有显著提升。同时根据该模型也得到显著影响个人违约的变量如借款金额,借款利率,借款期限,是否通过学历认证,视频认证,征信认证,历史还款状况,性别。因此本文所提出的模型能够较为有效得对金融机构个人信用风险违约进行识别预测。文章最后,从完善相关政策法规和监管体系加强金融机构信用风险管理的角度提出建议从而能够完善我国个人信用风险体系。