一种分布式聚焦型爬虫系统的设计与实现-南通市图书馆

文献详情 >一种分布式聚焦型爬虫系统的设计与实现收藏

一种分布式聚焦型爬虫系统的设计与实现

作者：黄林波

作者单位：华中科技大学

学位级别：硕士

导师姓名：陆永忠

授予年度：2016年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：聚焦型爬虫 Master-Slave体系分布式系统系统稳定性

摘要：在互联网技术飞速发展的时代,大量的信息在互联网上创造和产生,用户对于关键信息的检索需求越来越高,是否能够快速的从互联网上检索出关键信息,决定了一家互联网公司能否在这一波互联网大潮中筑稳基石。本文基于互联网的检索需求,结合系统稳定性和高产出比,提出了一种分布式聚焦爬虫的实现方案,该方案着眼于企业对特定互联网信息的搜集,建立了一种高效可行的爬虫系统,以有限的计算机资源实现大量的信息爬取工作。分布式聚焦爬虫系统首先从企业的需求出发,经过详细的需求分析和性能分析,在现有技术之上,对系统的各个模块进行了划分,并且针对具体的模块提出了创新性的设计,使用Python作为主要的开发语言,实现了Master-Slave体系结构的分布式技术,由于本文的用户群体主要是旅行服务类公司,爬虫聚焦于爬取酒店、机票、火车票、大巴票的官网数据,以XPATH和正则表达式结合的方式来解析抓取到的网页数据,在解析过程中,以逻辑代码与配置文件相结合的方式,创造性的提高系统的高内聚低耦合性,通过定义爬虫返回状态码并统计一段时间的数据,作出爬虫系统的爬取状态图,从而定位到爬虫系统的具体的问题,再对这些问题进行针对性的解决,有效的提升了爬虫系统的稳定性,实现了爬虫实现与优化的一体化设计。在Master-Slave分布式技术的实现上,采用了线程池技术来控制每一个Slave机器所能开启爬虫的数量,大大的提高了爬出系统的抓取效率,对于Slave服务器的设计则是利用定时器自动重启的功能来避免内存泄漏,从系统的层面上提高了系统的稳定性。本文所设计的分布式聚焦爬虫系统在企业上得到了具体的应用,在稳定性得到一定满足的情况下,以最大的产出比来爬取旅行类网站的数据,通过对最终解析的结构化数据的使用,实现了较大的企业利润。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

一种分布式聚焦型爬虫系统的设计与实现

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

一种分布式聚焦型爬虫系统的设计与实现

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：