咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向不均衡分类大数据的用户流失预测研究 收藏
面向不均衡分类大数据的用户流失预测研究

面向不均衡分类大数据的用户流失预测研究

作     者:陈文清 

作者单位:暨南大学 

学位级别:硕士

导师姓名:侯雅文

授予年度:2020年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:用户流失预测 数据不均衡 重采样 学习法结合策略 

摘      要:随着信息科学技术的高速发展,人们获取信息的通道变得更加广泛与便捷,用户对市场上的产品或服务的选择掌握了很多的主动权,导致许多企业都面临着用户流失的风险。在互联网、大数据技术还未普及的时期,企业构建用户流失预测模型所使用的数据维度低、结构简单,使用单一简单的模型都能取得不错的预估效果。而对于现在的依托于互联网的在线平台,用户流失预测模型构建的难点主要集中在用户数据维度高、结构复杂、噪声样本多且流失用户与未流失用户数量差距悬殊。本文基于某在线平台大量用户真实的数据,通过数据可视化的方式发掘影响用户流失的因素,再进行数据清洗、特征构建和嵌入式特征筛选构建用户流失预测模型训练的数据集。针对用户流失数据不均衡问题,从数据重采样和集成学习分类算法两个角度出发。在数据重采样层面,用Logistic算法和轻型梯度提升算法作为分类器,对比常用的重采样算法对用户数据不均衡问题的影响,其中本文采用对比的重采样算法包括少数类样本合成过采样技术、边界少数类样本合成过采样技术、自适应合成抽样算法、编辑最近邻欠采样算法、汤姆克链接样本对、少类样本合成过采样技术与编辑最近邻欠采样混合的采样算法以及少类样本合成过采样技术与汤姆克链接样本对混合的采样算法,最终选择对分类效果提升最好的编辑最近邻欠采样算法。在集成学习层面,使用随机森林、自适应提升算法、轻型梯度提升算法以及极端梯度提升算法建立用户预测模型,集成学习算法相较于传统的Logistic算法在不均衡数据集上的预测效果更好。基于数据重采样和集成学习两个层面的考量,本文最终使用将编辑最近邻欠采样融入学习法策略的初级强学习器,经过学习法策略结合的模型来建立用户流失预测模型,最终的用户流失预测模型F1-score达到0.8172,AUC达到0.9197,相较于单一的Logistic模型在F1-socre和AUC指标上分别提升了0.2833、0.1118。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分