职位信息并行抽取系统设计与实现-南通市图书馆

文献详情 >职位信息并行抽取系统设计与实现收藏

职位信息并行抽取系统设计与实现

作者：王丹

作者单位：江苏大学

学位级别：硕士

导师姓名：薛安荣

授予年度：2016年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：Nutch爬虫分布式系统正则化信息抽取 HBase数据库 MD5算法

摘要：随着招聘网站不断的增多,通过网络查找招聘信息已成为目前求职者的主要求职方式。每天都会有成千上万的职位信息发布在不同的招聘网站上,这些职位信息量大且冗杂。求职者想要准确而全面地获取所需职位信息,就不得不在各大网站间查询或者通过搜索工具搜寻。在各大网站间查询,存在难以全面获取所需职位信息和切换网站查询工作量大等问题。而使用通用搜索工具,虽然获得的信息相较于前者更加丰富全面,但又会存在信息冗余度大和选择困难等问题。文中通过研究分布式系统并行化抽取职位信息的结构与方法解决职位信息的快速抽取问题;通过研究基于正则化的提取方法解决职位信息分布散且杂的问题;通过研究一种高效地去除冗余信息的方法解决职位信息冗杂的问题。最终达到抽取的职位信息全而重复信息量少的目的,为用户提供友好的交互接口,方便用户快捷方便地获取所需要的职位信息。论文主要工作如下:(1)职位信息并行抽取系统的总体设计。为定位信息抽取的数据来源,需对各站点的职位信息链接进行爬取;为获取具体的职位信息,需根据链接相对应页面中的职位信息进行抽取;由于抽取的职位信息中存在冗余,需对抽取的信息去重后方可入库;为方便用户获取职位信息,需提供信息搜索服务。因此,系统主要包括职位信息爬虫模块、抽取模块、去重模块和搜索模块。(2)职位信息并行抽取系统的详细设计与实现。针对职位信息分散且量大的问题,在爬虫模块采用分布式Nutch进行网络爬虫以达到职位信息链接快速爬取的目的。为获得结构化的职位信息,采用基于正则化的抽取方法抽取职位信息,该方法能准确解析复杂的信息结构,同时为了提高职位信息抽取效率,采用具有高效性的并行计算框架实现职位信息并行化抽取,从而达到准确高效地抽取信息的目的。为了解决职位信息存在冗余的问题,在去重模块中采用MD5算法结合Spark进行职位信息迭代去重,由于Spark的内存计算方式优化了迭代工作负载,从而提高职位信息去重时间上的效率。此外,对去重的职位信息创建索引,提供搜索功能。(3)对职位信息并行抽取系统进行相关功能及性能测试。职位信息抽取的召回率和准确率的综合评价F达到97.6%,去重率达到100%。测试结果表明职位信息抽取准确率,并行化职位信息抽取时间效率以及职位去重率可以满足用户需求。最后根据测试结果探讨系统的不足和缺陷,探索系统的下一步优化的方向。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

职位信息并行抽取系统设计与实现

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

职位信息并行抽取系统设计与实现

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：