基于改进模糊聚类的WFSLIM推荐算法研究
作者单位:广东工业大学
学位级别:硕士
导师姓名:刘波
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网技术的发展,人们已经从PC时代进入了以智能手机为代表的移动互联网联网时代,目前人类每天产生的数据量呈指数在增长。也有人称21世纪是数据的时代(DT)。移动互联网产生巨大数据的同时也极大的促进了微博,推特,淘宝等社交和电商网络的火热发展。根据CNNIC报道,截至2016年底,中国网民总数已达7.1亿。如此庞大的互联网用户伴随而来的是庞大的数据。面对浩渺的数据如何利用用户产生的行为数据来进行高效,经济的个性化推荐成了各大平台重要的研究问题。目前无论微博等社交网络或者淘宝等电子商务网站现有的推荐系统效果往往都是不太尽如人意。社交和电商的推荐系统主要集中在Top-N的推荐问题研究上。好的自动化推荐系统可以极大提高用户在平台的活跃度和平台收益。本文通过介绍各种传统推荐算法和其不足之处,比如QQ的基于用户的协同过滤算法就曾出现将前女友推荐给现女友的笑话。当然这些缺点还包括推荐准确率不高,数据稀疏,运算量庞大等问题。提出用基于密度距离加权的WDFCM聚类算法对用户聚类,然后采用综合考虑用户之间,项目之间的相关系数的WFSLIM推荐算法进行推荐,本文主要工作如下:(1)很多电商和社交平台的推荐系统主要采用基于模型的协同过滤算法。此算法往往存在着数据稀疏性,系统可扩展性差以及冷启动等问题。基于SVD的推荐算法只是简单的对评分矩阵进行数学上的矩阵分解,这仅仅是用户和商品之间的直接关系。并没有全面考虑到用户之间,项目之间对预测的影响,对矩阵分解产生的因子矩阵也没有过多的考虑他们所处在推荐系统的真实意义。(2)FCM模糊聚类算法在处理一些特定场景时,其实验结果的效果很大取决于聚类参数和中心点的选取,本文综合考虑了模糊聚类样本点的距离和密度对聚类准确度的影响,提出了WDFCM算法,通过实验验证了算法针对一些数据集,聚类准确度有了显著的提高并且减少了聚类的迭代次数。(3)本文将基于模型的推荐算法隐语义模型进行了拓展,并在拓展模型中考虑了用户之间,用户与用户集之间以及项目之间的相关系数,针对传统的推荐算法准确率低,数据稀疏问题,本文提出了先将用户进行改进的WDFCM聚类,综合考虑用户,用户集以及项目之间的相关系数对评分矩阵的影响,然后采用改进的WFSLIM推荐算法进行推荐。从而达到降低了评分矩阵的稀疏度并且提高了模型推荐的准确率。同时也在一定条件下降低了算法的运行时间。(4)随着电子商务网站的用户和物品数据的飞速增加,传统的推荐算法平台在处理海量数据时已经明显性能不足,本文最后在基于Hadoop大数据平台上,实现了推荐系统算法的设计和开发。