咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于大数据的微额借贷用户信用预测方法研究 收藏
基于大数据的微额借贷用户信用预测方法研究

基于大数据的微额借贷用户信用预测方法研究

作     者:熊双辉 

作者单位:东南大学 

学位级别:硕士

导师姓名:李新德;周大成

授予年度:2018年

学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 

主      题:信用预测 SVM GDBT 集成学习 Hadoop 

摘      要:互联网微额借贷是无抵押小额借贷模式与新兴的互联网技术相结合而产生的一种全新的金融服务模式。网络借贷由于其低门槛、高效率等特点近年来得到了迅猛的发展,但是由于我国个人信用体系不健全,相关法律、法规的欠缺,导致网络借贷中暴露出非常严重的个人信用问题,时至今日,已经成为其发展的最大阻碍。传统的借贷用户信用预测方法大多都是以影响借贷用户违约率的三要素数据分别为数据基础,以BP(Back Propagation)神经网络、逻辑回归、随机森林等算法为方法基础来进行预测模型的建立。此类数据集并不一定能反映借贷用户的真实情况,容易存在造假数据,进而影响预测方法的性能。本文针对上述问题,在大数据背景下以表征借贷用户基本信息、财务信息、社交信息等各方综合数据为数据集,然后利用非线性SVM(Support Vector Machine)算法、GDBT(Gradient Boosting Decison Tree)算法来建立学习模型,并最终通过集成学习理论来建立融合模型,主要内容如下:在进行机器学习的过程中,对数据集特征的选取显得至关重要,本文根据数据集的特点及其运行环境,首先对数据集中的缺失值做了填充、删除操作;随后使用改进的独热码将数据集中的类别型特征映射到欧式空间;然后构建出表征数据集特征的排名特征、离散特征、计数特征、缺失值离散特征,并采用特征选择对原始数据、排名特征、离散特征进行降维处理而后与计数特征、缺失值离散特征串行组合为融合特征;最后,基于上述特征分别使用非线性SVM和GDBT算法来学习预测模型,并采用权重法进行集成学习得到可以互补各单模型之间不足的融合模型。本文预测方法的特点在于:摒弃了传统单一数据集,采用微额借贷大数据,以数据挖掘为工具,研究针对具体借贷平台的借贷用户信用预测方法,降低了借款者信息造假对预测结果的影响;结合数据集特点及平台特点,提出了表征数据集的排名特征、缺失值离散特征等特征;由于数据维度大,其中类别型特征多,使用改进的独热码降低了数据集中类别特征映射到欧式空间后的稀疏性;在使用机器学习算法学习单个预测模型的同时,引入集成学习方法,使得各单一算法之间可以形成互补,进一步提高了预测方法的性能。最后,本文搭建了Hadoop伪分布式集群,并在集群中进行了一系列的仿真实验,验证了本文基于非线性SVM和GDBT融合的微额借贷用户信用预测方法的可行性与实用性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分