个性化新闻推荐系统关键技术研究与实现
作者单位:北京理工大学
学位级别:硕士
导师姓名:陈朔鹰
授予年度:2015年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:互联网的出现和普及给用户带来了大量的信息,随之而来的是网上信息量大幅增长,信息超载问题突显。用户在面对数目庞大的新闻量时往往会感到力不从心,无法避免在查找真正感兴趣的新闻时耗费大量的时间和精力。特别在中文新闻领域,每天出现的新闻数量多达十几万篇,用户往往无法快速找到自己想关注的新闻内容。鉴于此,中文新闻的个性化推荐系统成为研究者们的研究热点。推荐系统能够根据用户的信息需求、兴趣等,推荐给用户更关注的信息感,由系统引导用户发现自己的信息需求,缩短了检索时间和精力代价。本研究课题中改进了传统中文个性化新闻推荐系统中的三个关键技术难点——新闻文本聚类、新闻文本在线分类与用户行为建模。目前,所有改进方法已经成功应用于搜狐新闻推荐系统客户端中。首先,针对新闻文本聚类,本文首次结合了神经网络语言模型,把文本聚类转换为与其对偶的词聚类,借助神经网络语言模型训练得到词向量,进而对词向量集进行模糊聚类,利用聚类结果回转得到中文新闻文本的聚类结果。在保证准确率的前提下,实验证明,该方法聚类速度比Latent Dirichlet Allocation方法提高了5倍。其次,新闻文本在线分类通过判断文本关键词与类别特征词之间的关系实时实现。最后,进一步提出了使用用户兴趣词来表征用户对用户进行建模的方法。