咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于飞天云平台的海量网络用户行为分析技术研究 收藏
基于飞天云平台的海量网络用户行为分析技术研究

基于飞天云平台的海量网络用户行为分析技术研究

作     者:胡晓祥 

作者单位:南京大学 

学位级别:硕士

导师姓名:武港山

授予年度:2014年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

主      题:网络用户行为分析 飞天云平台 海量数据处理 网页过滤 用户属性信息 

摘      要:随着信息化的不断普及,互联网越来越成为人们日常生活中不可缺少的一部分。人们在互联网上会产生各种各样的网络行为。对用户行为进行分析有助于构建个性化网络服务、实现更精准的广告定向和个性化推荐等,因此有越来越多的工作集中于网络用户行为的研究。目前,对网络用户行为的相关研究大部分是对用户的行为模式做统计分析,也有一部分工作对用户访问内容进行了浅层次的分析,绝大部分工作都是采用的小规模的用户行为数据。因此,针对大规模的网络用户浏览行为数据的分析工作还不足,同时缺乏一个针对大规模用户行为的分析框架。大规模用户行为数据的处理涉及海量数据的存储和处理,目前,云平台是比较常用的解决方案。本文基于飞天分布式云平台,设计了对海量网络用户行为数据进行处理和分析的方法,重点解决海量网页分类过滤时间代价高以及对用户访问网页内容分析层次浅的问题,达到了对海量网络用户行为数据分析的高效性要求。本文的主要工作包括以下几点:1.在分析飞天云平台的基础上,设计了一个面向海量网络用户行为分析系统处理架构。该架构设计了包括网络用户行为记录,网页内容爬取,网页清洗与关键词抽取,领域网页快速过滤,网页属性生成,用户属性生成,统计分析七个模块,能够有效地支撑基于飞天云计算平台的海量网络用户行为分析。后续的研究工作表明,该框架能够充分利用飞天的处理能力,实现便捷、高效的数据处理服务。2.针对海量网页分类过滤时间代价高的问题,提出了一个两阶段联合过滤的处理策略。飞天平台搜集的网络信息中,平均每天的用户浏览网页数为一百亿,针对使用常规的领域分类算法进行过滤,时间代价很大的问题,本文采用先经过领域字典粗过滤,再用分类器细过滤的两阶段处理过程,大幅度缩短了处理时间。3.针对目前的研究工作对用户访问的网页内容分析层次浅的不足,提出了基于网络浏览日志提取用户深层次属性信息的处理方法。通过构建领域描述,采用多层次分类方法,从用户浏览的页面中提取相关领域内的类别、子类别等属性信息。将页面属性信息与网页浏览日志数据进行聚合操作得到每个用户的属性信息。此外,为了能够方便地对用户属性信息进行统计分析,我们对一段时间内的用户属性信息进行了空间复杂度较低的增量聚合。本文针对海量网页数据的快速领域过滤和用户行为属性信息提取的问题进行了关键技术研究,在此基础上,实现了一个基于飞天的海量网络用户行为分析挖掘系统,实验效果表明,本文的技术方案具有有效性和高效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分