企业级个性化新闻推荐系统设计与实现
作者单位:华南理工大学
学位级别:硕士
导师姓名:董守斌;陈启愉
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:推荐系统 个性化推荐 自然语言处理 协同过滤 用户标签 新闻系统
摘 要:在当今互联网信息过载的时代,面对每天大量的新闻资讯,用户希望能够快速的看到自己关注的新闻,而新闻资讯提供平台希望能够将用户感兴趣的内容推给对应的用户,帮助互联网用户在每天产生的海量新闻资讯中寻找到他们感兴趣的内容,解决信息过载问题,具有重要的经济和社会意义。目前的个性化新闻推荐系统通常是基于协同过滤或基于内容的推荐方法。使用传统的协同过滤推荐,通常存在着矩阵稀疏的问题,而基于内容推荐方法,可能存在结果的单一性问题,同时冷启动问题也影响效果,因此在应用中需要根据场景和效果选择合适方法或用一定方式进行综合。本文结合所在企业需求和实践,提出了一种基于兴趣标签的内容推荐与协同过滤融合推荐模型,设计和实现了一个企业级个性化新闻推荐系统。本文主要完成了如下工作:(1)基于标签词向量建立用户兴趣模型。对新闻文本进行提取关键词处理,融入词语相似度的概念,将新闻转化为统一的标签词向量表示,根据阅读行为建立用户兴趣模型,得到用户兴趣标签向量,基于此进行内容推荐,优化单纯通过文章关键词匹配用户兴趣的方法。(2)根据用户兴趣标签模型对用户聚类,针对用户类别实施协同过滤推荐,用于弥补只基于个人历史行为进行内容推荐的结果可能存在单一性的问题,同时也在一定程度上缓解直接协同过滤的计算量过大以及矩阵稀疏对结果影响等问题。(3)建立了融合的推荐模型,结合基于标签的内容推荐与协同过滤推荐结果,同时考虑新闻热度因素,以解决冷启动用户问题。实验表明该融合模型,可在需求背景下保持相对稳定的推荐效果。(4)设计并实现了一个企业级新闻推荐系统,将Hadoop平台分布式计算技术用于文本内容处理和用户聚类等相关模块,实现了高效可扩展的大规模数据的处理。