基于用户信任度和社会化标签的协同过滤算法研究
作者单位:华南理工大学
学位级别:硕士
导师姓名:邓辉舫
授予年度:2018年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:协同过滤 项目属性偏好 信任度 多兴趣模型 社会化标签 时间衰减
摘 要:随着互联网的广泛普及和电子信息技术的飞快发展,网络成为人们获取信息的重要方式,数据正在以超凡的速度呈现爆炸式增长。分类目录、搜索引擎等传统的网络服务已经不能满足人们的个性化信息需求,推荐系统应运而生。目前个性化推荐技术被广泛应用到诸如社交网站、电影音乐网站、电子商务等系统中,以提升用户体验,增强网站竞争力。协同过滤算法以稳定、简单等特性,成为应用最广泛和成功的个性化推荐算法之一。但传统协同过滤算法仍存在许多问题,包括:1)稀疏性:过度稀疏的评分矩阵,无法有效衡量用户之间的相似性;2)多兴趣模型:传统协同过滤基于单一用户兴趣模型进行推荐,当用户有多个兴趣,且兴趣跨度较大时,基于单一兴趣模型预测的结果将会出现很大偏差;3)兴趣变化:传统协同过滤假定用户兴趣一成不变,而现实生活中用户的兴趣是不断变化的。本文针对以上问题,综合利用评分数据和社会化标签信息,提出了两种改进的协同过滤算法。第一种是基于项目属性偏好和信任度的多兴趣推荐算法。首先基于用户评分和项目属性信息构造用户-项目属性偏好矩阵;然后综合用户的评分相似性和项目属性偏好相似性初步筛选近邻;接下来尝试用本文提出的用户级用户信任度融合上述综合相似度共同选取K近邻;最后在预测评分时,用本文提出的基于特定用户和特定项目的用户信任度融合上述综合相似度作为推荐权重。第二种是基于时间和社会化标签聚类的协同过滤。首先通过Word2vec语言模型生成社会化标签的词向量;然后对标签词向量聚类,并借鉴TF-IDF思想构造用户-标签类别偏好矩阵;接下来考虑用户动态标注信息反映的用户兴趣变化,设计一种时间衰减函数作为标签类别偏好权重;然后计算用户相似性并产生预测评分。最后将两个算法进行混合,通过在Movielens数据集上进行多组实验,验证了本文算法有效地改善了数据稀疏性、兴趣模型单一和兴趣变化所导致的推荐结果不准确问题,比其他相关改进算法推荐效果更好。