基于标签迁移学习的推荐方法的研究
作者单位:南京大学
学位级别:硕士
导师姓名:赵志宏
授予年度:2013年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:迁移学习 基于用户的协同过滤推荐 标签共现概率分布 标签评分
摘 要:随着互联网的不断发展,互联网的信息快速膨胀,个性化推荐技术越来越重要。个性化推荐技术能够帮助用户在海量信息中快速找到自己需要的信息。标签,作为人民日渐推崇的数字信息组织的主要方法,被越来越多的用于推荐系统来解决推荐系统中出现的稀疏性问题。迁移学习是也目前特别热门的学习框架。和其他的机器学习方法不同,迁移学习允许训练数据和测试数据拥有不同的特征空间。 通过本文的研究和实验论证,我们发现在标签数据本身十分稀疏的情况下,标签并不能给现有的推荐系统带来改进。在现实的应用中,我们注意到存在这样一种现象,如果一个领域上的标签信息比较稀疏,和这个领域相似的另外一个相对比较成熟的领域上可能存在更为密集的标签信息。这个现象启发我们用迁移标签的方法来改进推荐系统。之前也有很多研究将迁移学习应用到推荐系统中来改进推荐系统,但是之前的研究都是迁移推荐系统中的用户评分矩阵,而且这些研究工作都要求源领域中的评分数据足够密集。通过本文的实验论证,可以发现在源领域中的评分数据稀疏的情况下,按照传统的应用,迁移学习并不能给推荐系统带来改进。在这篇论文中,我们提出了一种新的标签迁移模型(TTL)来实现通过迁移标签改进推荐系统的目标。TTL模型能够在标签数据和评分数据都稀疏的情况下,保持利用标签改进推荐系统的效果。TTL将相似的另外一个相对比较成熟的领域上的更为密集的标签信息以标签主题的形式迁移到目标领域,然后利用迁移来的标签信息来改进推荐效果。TTL和传统的基于迁移学习的协同过滤推荐系统相比有一些新的特征。首先,TTL模型迁移的是标签主题,而传统的基于迁移学习的推荐系统迁移的是用户-评分矩阵,标签主题是一种一维的知识,而用户-评分矩阵是一种二维知识。其次,TTL模型迁移的方法是聚类,而传统的基于迁移学习的推荐系统是通过矩阵分解来进行迁移。还有就是TTL模型就迁移学习中的三个核心问题之一when to transfer给出了定量的分析。 我们在目前推荐系统中最流行的公开数据集MovieLens上面进行了实验,将TTL方法和传统的协同过滤推荐方法以及普通的基于标签的推荐系统进行了比较。TTL方法在评分数据比较稀疏的情况下(小于百分之十一点五),MAE值和IRMSE值都比另外两种方法小,说明在评分数据比较稀疏的情况下,TTL方法相对于另外两种方法有更准确的推荐效果,一定程度上解决了推荐系统中的数据稀疏的问题。