咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种分布式聚焦型爬虫系统的设计与实现 收藏
一种分布式聚焦型爬虫系统的设计与实现

一种分布式聚焦型爬虫系统的设计与实现

作     者:黄林波 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:陆永忠

授予年度:2016年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:聚焦型爬虫 Master-Slave体系 分布式系统 系统稳定性 

摘      要:在互联网技术飞速发展的时代,大量的信息在互联网上创造和产生,用户对于关键信息的检索需求越来越高,是否能够快速的从互联网上检索出关键信息,决定了一家互联网公司能否在这一波互联网大潮中筑稳基石。本文基于互联网的检索需求,结合系统稳定性和高产出比,提出了一种分布式聚焦爬虫的实现方案,该方案着眼于企业对特定互联网信息的搜集,建立了一种高效可行的爬虫系统,以有限的计算机资源实现大量的信息爬取工作。分布式聚焦爬虫系统首先从企业的需求出发,经过详细的需求分析和性能分析,在现有技术之上,对系统的各个模块进行了划分,并且针对具体的模块提出了创新性的设计,使用Python作为主要的开发语言,实现了Master-Slave体系结构的分布式技术,由于本文的用户群体主要是旅行服务类公司,爬虫聚焦于爬取酒店、机票、火车票、大巴票的官网数据,以XPATH和正则表达式结合的方式来解析抓取到的网页数据,在解析过程中,以逻辑代码与配置文件相结合的方式,创造性的提高系统的高内聚低耦合性,通过定义爬虫返回状态码并统计一段时间的数据,作出爬虫系统的爬取状态图,从而定位到爬虫系统的具体的问题,再对这些问题进行针对性的解决,有效的提升了爬虫系统的稳定性,实现了爬虫实现与优化的一体化设计。在Master-Slave分布式技术的实现上,采用了线程池技术来控制每一个Slave机器所能开启爬虫的数量,大大的提高了爬出系统的抓取效率,对于Slave服务器的设计则是利用定时器自动重启的功能来避免内存泄漏,从系统的层面上提高了系统的稳定性。本文所设计的分布式聚焦爬虫系统在企业上得到了具体的应用,在稳定性得到一定满足的情况下,以最大的产出比来爬取旅行类网站的数据,通过对最终解析的结构化数据的使用,实现了较大的企业利润。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分