咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >电信运营商基于数据挖掘的移动用户研究 收藏
电信运营商基于数据挖掘的移动用户研究

电信运营商基于数据挖掘的移动用户研究

作     者:张治高 

作者单位:青岛理工大学 

学位级别:硕士

导师姓名:李道全

授予年度:2020年

学科分类:12[管理学] 02[经济学] 07[理学] 08[工学] 070103[理学-概率论与数理统计] 0202[经济学-应用经济学] 020208[经济学-统计学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020205[经济学-产业经济学] 081104[工学-模式识别与智能系统] 0714[理学-统计学(可授理学、经济学学位)] 0835[工学-软件工程] 0701[理学-数学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:数据挖掘 交往圈 线性回归 决策树 虚假用户 

摘      要:在大数据发展的浪潮中,我国电信企业在OTT(腾讯、阿里等)企业的不断冲击下,已经沦为数据管道,电信运营商的机遇与挑战并存。随着我国互联网用户的日趋饱和,电信客户增长速率由高速增长转变为低速增长。在全国实行“携号转网的大背景和国际电信运营商准入国内市场的新形势下,如何维系存量客户,发展高质量客户,对企业至关重要。电信运营商相比其它企业,在基础数据量上占据上风,尤其是在客户实名制的背景下,更加提升了企业客户资料的真实性。利用自身的数据资源优势进行数据挖掘,可以帮助电信运营商维系存量客户,提高新客户的发展质量,提高企业的竞争力,实现企业的数字化转型。本文利用某电信运营商提供的一系列基础数据集,主要进行以下几方面的工作与研究:(1)基于Hadoop技术以及数据挖掘的相关基础知识,深入研究了线性回归分析模型的建立和参数估计方法。对决策树的创建过程,如何选取最佳属性以及常用剪枝方法做了进一步研究。(2)利用时间窗口法,对用户间短信和语音通信记录进行量化,本文提出了基于多元线性回归的移动用户交往指数模型,采取最小二乘法计算出模型中的参数。该模型无需经过复杂运算即可完成计算,可以在企业生产环境中进行广泛的推广。为后续的工作与研究提供了重要的基础。(3)利用稳定交往指数模型的计算结果以及运营商基础数据集,构建了基于决策树的虚假移动用户识别模型。由于样本的数据集有正负不均衡问题,传统的C4.5算法是以最低的错误率为目标,这导致模型的分类结果趋于样本较多的类,不能满足虚假用户识别模型的要求,因此本文做出两方面的优化:第一,基于关联规则的Apriori算法,挖掘并选择支持度与置信度都比较高的规则,进而找出哪些是影响虚假用户识别的重要属性,保留关键的规则,根据具体情况将筛选出的规则作为新的属性运用到决策树中;第二,传统决策树算法是以最小错误率为依据来标记叶结点和模型剪枝,无法完全符合虚假用户识别的要求,为此本文采用了代价敏感方法,它基于最小的错误分类为准则,实验结果得出,优化后的算法提高了模型的召回率,分类效果得到了大大提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分