咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >职位信息并行抽取系统设计与实现 收藏
职位信息并行抽取系统设计与实现

职位信息并行抽取系统设计与实现

作     者:王丹 

作者单位:江苏大学 

学位级别:硕士

导师姓名:薛安荣

授予年度:2016年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:Nutch爬虫 分布式系统 正则化信息抽取 HBase数据库 MD5算法 

摘      要:随着招聘网站不断的增多,通过网络查找招聘信息已成为目前求职者的主要求职方式。每天都会有成千上万的职位信息发布在不同的招聘网站上,这些职位信息量大且冗杂。求职者想要准确而全面地获取所需职位信息,就不得不在各大网站间查询或者通过搜索工具搜寻。在各大网站间查询,存在难以全面获取所需职位信息和切换网站查询工作量大等问题。而使用通用搜索工具,虽然获得的信息相较于前者更加丰富全面,但又会存在信息冗余度大和选择困难等问题。文中通过研究分布式系统并行化抽取职位信息的结构与方法解决职位信息的快速抽取问题;通过研究基于正则化的提取方法解决职位信息分布散且杂的问题;通过研究一种高效地去除冗余信息的方法解决职位信息冗杂的问题。最终达到抽取的职位信息全而重复信息量少的目的,为用户提供友好的交互接口,方便用户快捷方便地获取所需要的职位信息。论文主要工作如下:(1)职位信息并行抽取系统的总体设计。为定位信息抽取的数据来源,需对各站点的职位信息链接进行爬取;为获取具体的职位信息,需根据链接相对应页面中的职位信息进行抽取;由于抽取的职位信息中存在冗余,需对抽取的信息去重后方可入库;为方便用户获取职位信息,需提供信息搜索服务。因此,系统主要包括职位信息爬虫模块、抽取模块、去重模块和搜索模块。(2)职位信息并行抽取系统的详细设计与实现。针对职位信息分散且量大的问题,在爬虫模块采用分布式Nutch进行网络爬虫以达到职位信息链接快速爬取的目的。为获得结构化的职位信息,采用基于正则化的抽取方法抽取职位信息,该方法能准确解析复杂的信息结构,同时为了提高职位信息抽取效率,采用具有高效性的并行计算框架实现职位信息并行化抽取,从而达到准确高效地抽取信息的目的。为了解决职位信息存在冗余的问题,在去重模块中采用MD5算法结合Spark进行职位信息迭代去重,由于Spark的内存计算方式优化了迭代工作负载,从而提高职位信息去重时间上的效率。此外,对去重的职位信息创建索引,提供搜索功能。(3)对职位信息并行抽取系统进行相关功能及性能测试。职位信息抽取的召回率和准确率的综合评价F达到97.6%,去重率达到100%。测试结果表明职位信息抽取准确率,并行化职位信息抽取时间效率以及职位去重率可以满足用户需求。最后根据测试结果探讨系统的不足和缺陷,探索系统的下一步优化的方向。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分