咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于增强学习与混合学习的征信数据信贷违约预测模型的研究 收藏
基于增强学习与混合学习的征信数据信贷违约预测模型的研究

基于增强学习与混合学习的征信数据信贷违约预测模型的研究

作     者:张昊东 

作者单位:武汉邮电科学研究院 

学位级别:硕士

导师姓名:董雷

授予年度:2022年

学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:信贷违约预测 征信数据 增强学习 混合学习 机器学习 

摘      要:近年来,依托中国经济社会的高速发展,中国信贷市场发展迅猛,信贷产品的风控管理也随之变得越来越重要。但当前业界信贷模型多聚焦历史还贷数据,对匿名特征数据与征信数据的利用较为欠缺,且部分模型结构单一、泛化能力不强。本文为了解决上述问题,扩展传统信贷模型思路,利用增强学习与混合学习的思想,面向中小规模的匿名特征金融征信数据展开研究,设计并实现一种新的金融征信风控模型。本文首先针对具有海量匿名特征的中小规模金融一线征信数据展开特征工程研究。针对匿名特征的选取与交叉构建问题,本文使用构建特征协方差图的形式展现特征之间的相关关系。在选取特征对并经过特征-标签关系图进行进一步验证后,再将相关特征以加减乘除组合的形式构建新的特征。该实现方法为解决匿名特征的交叉构建问题指出了一种新的构建方法与思路。针对如何挖掘数据集内更深层次信息的问题,本文除了常规信息挖掘处理之外着重挖掘地理位置信息这一特殊的信息。通过抽取出地理位置信息对应的城市等级、地理位置信息对应的经纬度坐标等新特征来为模型提供新的业务信息。通过整理出省份违约排名及城市违约排名等新特征为模型提供基于整个数据集的统计特征。随后,本文针对文章研究目标展开算法研究。本文以增强学习的形式对树模型进行了优化,通过组合逻辑树形式的若干增强学习器学习到统计特征不尽相同的强规则信息。在此基础上以混合学习的思想结合树模型与线性模型各自的特点,中和各模型的缺陷,防止对中小样本数据的过拟合。在模型实现过程中,本文采用网格搜索调参、随机搜索调参与贝叶斯优化调参的方法对本文设计模型的拟合控制参数进行了确定以期达到最理想的模型效果。在AUC衡量指标、识别效率指标的评价下,本文指出,本文模型在模型精度指标上均强于六个对比算法。其中对于本文模型精度的主要衡量指标AUC指标,本文模型较经典算法SVM算法提升将近70个百分点,较Ada Boost算法提升近3个百分点,较实验表现最好的Light GBM算法提升近1个百分点。在识别效率上,本文模型识别效率强于SVM算法与Ada Boost算法,逊于其他四个算法。由于本文研究对象的业务逻辑对响应时间要求不高,但研究对象的业务领域——金融信贷领域对模型精度极为敏感,小范围的模型精度上升即能为行业新创造巨量的财富。综上,本文的研究具有一定的性能先进性与实践可行性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分