咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Nutch的分布式爬虫系统的研究与优化 收藏
基于Nutch的分布式爬虫系统的研究与优化

基于Nutch的分布式爬虫系统的研究与优化

作     者:井迪 

作者单位:东北大学 

学位级别:硕士

导师姓名:蒋学英

授予年度:2015年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:分布式爬虫系统 Nutch 网页去重 网页排序 文档指纹 

摘      要:伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展成为计算机产业界及学术界研究的热点。Hadoop以其良好的扩展性及可靠性成为当前应用较为广泛的云平台,得到了许多研究人员的关注。而作为Hadoop起初的主项目Nutch,是一个Java语言开发的开源搜索引擎,其支持分布式爬虫,且底层实现使用Hadoop,越来越多的学者围绕两者的结合展开研究,通过各种方式提高分布式搜索的效率。本文首先对Hadoop平台以及Nutch框架进行了分析研究,包括Nutch的插件机制与索引机制以及Hadoop分布式文件系统与分布式计算模型Map/Reduce。研究并分析了几种常见的网页去重算法与网页排序算法。在此基础之上,针对原生的Nutch系统在网页去重及网页排序方面的不足,提出了基于加权特征句提取的网页去重算法以及基于文档指纹与页面重要性的PageRank算法。其中基于加权特征句抽取的网页去重算法采用了网页内容加权提取的方式,并利用sim-Hash算法将文档表示成特征指纹集合,并通过计算集合间的Jaccard系数判断页面是否相似;基于文档指纹与页面重要性的PageRank算法利用本文提出的去重算法中的文档指纹来衡量网页间的主题相似度,并根据页面的链入链接数来分配所得的PageRank值,改善传统PageRank算法中出现的主题漂移问题以及权值的平均分配问题,并给出了这两个算法在系统中具体的Map/Reduce实现。最后,搭建Hadoop+Nutch的实验环境,并在Nutch系统实现中文分词的基础上对相关算法进行了测试实验,实验结果表明基于加权特征句抽取的网页去重算法拥有良好的去重效果与时间效率,并且这两方面达到了良好的平衡;基于文档指纹与页面重要性的PageRank算法与传统的PageRank算法相比,具有更高的查准率与稳定性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分