咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >变权重稀疏Kmeans的算法及应用研究 收藏
变权重稀疏Kmeans的算法及应用研究

变权重稀疏Kmeans的算法及应用研究

作     者:刘婉婉 

作者单位:厦门大学 

学位级别:硕士

导师姓名:谢邦昌

授予年度:2017年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:变权重 Lasso 稀疏Kmeans 

摘      要:Kmeans是数据挖掘中一种比较常见的无监督机器学习方法,近年来很多学者对此进行研究,并且根据不同领域的数据特性提出了许多改进Kmeans的算法。本文也是关于Kmeans算法的研究,研究的主要问题是:一是在聚类时,所有特征变量可能受到某个暴露变量的影响从而对聚类效果的贡献不同,二是对于高维数据造成的维数灾难,如何删除冗余变量再进行聚类从而提高聚类的准确性。针对上面两个问题,本文提出了变权重稀疏Kmeans的算法。为解决第一个问题,本文对每个特征变量对聚类效果的贡献引入了特征权重,并且这个权重是暴露变量的非参数函数,称为变权重,这样不仅代表每个特征变量对聚类效果的贡献不同,而且也考虑到了每个变量受暴露变量的影响。在具体求解过程中,非参数函数用B样条展开,通过求解最优的聚类效果得到B样条的系数。对于第二个问题,本文参考稀疏Kmeans的方法对系数添加Lasso惩罚,本文对B样条添加Lasso惩罚从而起到压缩权重的作用。本文通过大量的模拟实验来体现此方法的优越性,并将此方法运用到电信用户的精准营销。本文针对某地区2016年10月,11月和12月三个月的的电信业务数据,根据用户的消费账单的价值行为,流量、语音和短信的通讯行为,还有用户的交往圈特征等特征选择变量,并且考虑这些特征变量的当期水平和发展趋势波动,进行了新的变量指标构建,对新构建的变量指标进行清洗和筛选,选择网龄的当期水平作为暴露变量,然后通过变权重稀疏Kmeans方法把电信用户进行细分为5个群体,分别给出合适的营销建议,最后根据用户的基本属性,对这5个群体进一步细化,使得营销更加精准有效。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分