咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Nutch的科技主题搜索引擎Crawler的研究与实现 收藏
基于Nutch的科技主题搜索引擎Crawler的研究与实现

基于Nutch的科技主题搜索引擎Crawler的研究与实现

作     者:任妤 

作者单位:内蒙古科技大学 

学位级别:硕士

导师姓名:高永兵

授予年度:2011年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:遗传算法 主题搜索引擎 Nutch Crawler 主题相关度 

摘      要:随着人们日益增长的个性化需求,通用搜索引擎显然已经不能满足用户的各方面需求,由于主题式搜索引擎具有效率高、专业化、目标化、准确性高、及时性、个性化等优势,能够得到越来越多用户的认可。因此,主题式搜索引擎成为当今研究的热点。 另外,由于Nutch具有高透明度,任何单位或个人都可以查看搜索引擎的工作原理并且程序设置灵活,用户可以根据自己需求定制,通过长时间的实际应用,结果表明Nutch运行非常稳定,因此选择Nutch为爱好搜索引擎的人们提供了一个很好的研究平台。 本课题的主要内容是基于Nutch的科技主题搜索引擎Crawler的研究与应用。之所以选择科技作为主题,是因为它不仅能丰富人们的精神生活,对更新人们的思想观念以及破除迷信也具有相当重要的意义。在此背景下,本课题设计并实现了一个科技主题搜索引擎。 本课题中作者以Nutch作为开发平台,对Nutch进行二次开发,并在Nutch的基础上设计实现一个以科技为主题的主题搜索引擎,详细说明了科技主题搜索引擎搜索系统开发过程和方法。作者首先在阅读了大量的参考文献的基础上,了解了主题式搜索引擎的工作原理、主题式Crawler的抓取策略,分析比较了各种搜索策略之后,鉴于遗传算法在搜索引擎中的各种优势,将遗传算法的思想运用到Crawler的抓取策略中。在设计系统时,系统主要分为抓取模块、预处理模块和查询服务模块。另外,由于Nutch仅仅提供搜索平台,它具有很高的扩展性及插件机制,而Nutch本身的分词效果很差,本课题中使用了庖丁解牛分词器改善Nutch中文分词的效果。 最后通过项目部署在Tomcat服务器上对系统进行了实验测试,以验证了此种方法的可行性和预期的结果是否相符,改进后提高了搜索结果的精确度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分