基于项目属性偏好和社会化标签的协同过滤算法研究
作者单位:华南理工大学
学位级别:硕士
导师姓名:邓辉舫
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:协同过滤 项目属性偏好 万有引力 Word2Vec 社会化标签
摘 要:近年来,网上购物、电子商务和网络销售等愈加流行普及,据2017年中国互联网络信息中心权威统计,仅我国手机网上支付用户规模就高达4.7亿,因此,对客户实现精准推荐意义重大,对商家,在最短的时间为用户提供最有价值的商品就变得十分重要,推荐系统正是解决这一问题的最佳策略。协同过滤算法是目前应用最广泛和成功的推荐算法,但仍存在弊端,影响推荐质量。传统的协同过滤算法主要存在以下问题:1)稀疏性问题:评分矩阵过于稀疏,无法有效度量用户或项目相似性;2)用户兴趣转移问题:用户的兴趣会随时间变化,把所有评分时间的权重等同对待不够合理,无法反映用户兴趣的动态变化;3)可扩展性问题:数据量不断增大,评分矩阵维度过高,导致计算复杂度太大,上述问题都会导致推荐的准确率降低。针对以上问题,本文分别从用户的显性反馈即用户评分和隐性反馈行为即社会化标签出发,提出了两种改进的协同过滤算法。第一种是基于时间和万有引力的项目属性偏好协同过滤。首先,提出了基于项目属性评分时间轴的时间衰减函数作为评分时间权重,从而构造用户-项目属性偏好矩阵;然后,尝试提出了一种基于万有引力的用户相似度算法,把用户间的兴趣相似度类比为物理学中两个质点间的万有引力,从而衡量用户相似度;接着,进行评分预测和推荐。第二种算法是基于Word2Vec和社会化标签的协同过滤。首先,引入Word2Vec模型,把用户标签生成具有语义的词向量;然后,根据词向量间的语义关联聚类,构造用户-标签类别频次矩阵,并归一化;接着,计算用户间相似度和评分预测。最后,本文将上述两种算法进行线性组合,同时考虑用户的评分和标签行为,将显性和隐性反馈综合考量,生成一种新的混合协同过滤算法,解决了用户兴趣变化、稀疏性和扩展性问题。通过在不同大小的MovieLens数据集上实验,验证了本文算法较传统协同过滤以及其他相关的改进算法,其推荐结果更加高效精准。