基于大数据的协同过滤推荐算法研究
作者单位:浙江工业大学
学位级别:硕士
导师姓名:王万良
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:协同过滤 Slope One 巴氏系数 集成聚类 Hadoop
摘 要:随着互联网技术的不断更新迭代,网络数据的体量和复杂性不断增大,用户从体量庞大的数据中挖掘出有价值的信息资源变得越来越困难,“信息过载(Information Overload)问题愈加严重。推荐算法是缓解“信息过载问题的主要技术手段之一,受到了学术界和工业界的广泛关注和研究。而大规模的数据量也给传统的数据处理平台和技术带来了巨大的挑战,开源的分布式计算平台Hadoop为大数据的处理提供了有效的平台支撑,得到广泛使用。本文深入研究了推荐算法的相关理论,对其中基于协同过滤的推荐算法—Slope One进行优化改进和大数据框架下的并行化实现。首先针对Slope One算法存在的缺点,在项目维度添加相似性度量方法;在用户维度进行聚类,得到目标用户的邻居集合;然后为进一步提高推荐准确性,利用集成学习思想使用集成聚类代替单一的用户聚类方法;最后在Hadoop计算平台下对提出算法进行了并行化实现。本文的主要工作如下:1.针对Slope One算法在用户维度和项目维度没有充分考虑权重影响问题,提出融合巴氏系数的用户聚类Slope One算法(BC-Slope One算法)。以巴氏系数作为权重刻画项目之间的差异,利用用户聚类找到目标用户的邻居用户集合。在真实的电影推荐数据集上进行验证,表明提出的BC-Slope One算法能在保证较低计算复杂度情况下,提高算法评分预测的准确性;2.对于推荐数据的复杂性特点,本文使用集成聚类代替单一聚类方法,提出基于集成聚类的改进Slope One算法(Mix-BC-Slope One算法)。通过在数据和算法两个方面进行研究分析,提出三种用户基聚类方法。通过三种基聚类方法生成表现优秀且差异性良好的聚类结果,再进行集成融合生成最佳聚类结果,并通过实验证明了该算法进一步改善了推荐效果;3.介绍了大数据研究现状,对Hadoop计算平台及其相关子项目HDFS、MapReduce等进行了深入研究。对基于大数据的推荐系统研究进展进行了详细介绍,结合本文提出的Mix-BC-Slope One算法进行了并行化的可行性研究分析,并且在实际大数据平台下进行了实现。最后对全文进行总结,并提出进一步的研究方向。