咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于高实时分布式网络的爬虫软件设计与实现 收藏
基于高实时分布式网络的爬虫软件设计与实现

基于高实时分布式网络的爬虫软件设计与实现

作     者:张峰 

作者单位:浙江大学 

学位级别:硕士

导师姓名:余锋

授予年度:2018年

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:爬虫 分布式 RDMA 微博 

摘      要:随着互联网,尤其是移动互联网的发展,网络数字信息几何级的规模增长,如何有效的提取这些信息,使数据分析更为方便,是网络爬虫研究的主要内容。随着分布式系统的兴起,包括分布式计算与分布式存储,这些技术框架的广泛应用使人们看到分布式系统在面对大规模数据的处理问题上的优势。本文实现了一种高实时分布式的网络爬虫软件,并以新浪微博为例实现了对微博用户信息以及博文的爬取,根据实际需要实现了分布式系统框架,包括节点通信与负载分配问题。本文的主要工作内容如下:1)分析国内外爬虫软件与分布式系统的研究现状,介绍典型技术框架的原理以及应用情况。2)在分布式系统方面,本文提出了应用RDMA技术实现节点之间的内核旁路低延迟传输技术,保证了爬虫软件的运行效率以及实时性。为了保证负载均衡与系统的健壮性,本文提出了一种简单但有效的负载分配方案。3)针对微博页面制订了爬虫策略,应用Scrapy框架实现了爬虫模块,运用数据库服务器做为节点之间的枢纽,并根据实验结果调整爬虫策略。4)利用分词技术与话题热度评估技术实现了主题发现模块,发现微博热门主题并可以通过爬虫软件后续跟踪。5)验证分布式爬虫软件的系统功能与性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分