分布式搜索引擎研究与实现
作者单位:中山大学
学位级别:硕士
导师姓名:吴向军
授予年度:2014年
学科分类:081203[工学-计算机应用技术] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着信息技术的进步,互联网(Internet)得到了快速的发展,成为人们学习、生活的一部分。互联网含有大量的信息,是人们获取信息的重要来源之一。如何快速从互联网中获取到所需信息是研究热点之一,搜索引擎技术就是在这背景下产生的。本文在分析搜索引擎现状基础上,利用面向对象技术设计实现了一个全文搜索引擎系统。该搜索引擎系统具有支持多线程、多语言、自适应、分布式等特点。 文中首先分析了搜索引擎的研究现状,阐述了搜索引擎的工作流程和体系结构,分析总结了目前搜索引擎主流排序算法。利用PageRank算法中网页属性对排序造成影响的思想分析了影响排序的核心网页属性,并对这些网页属性进行了定性分析和定量计算,提出了网页质量等级评价算法。利用词频位置加权排序原理实现了文本相似度评价算法。在网页质量等级评价算法和文本相似度评价算法基础上实现了关键字综合排序算法和信息检索排序算法。 然后利用面向对象技术实现了搜索引擎信息采集系统、信息分析系统、信息检索系统。利用工厂生产管理模型和四级缓存结构,以及多线程技术和聚类分析算法实现了网页信息的快速采集、抽取、存储。利用基于词库文本分割算法和基于特别字符分割算法,实现了对文本的关键词提取,并建立了关键字的倒排索引。利用分表分库机制实现了搜索引擎大数据存储,采用MVC架构和检索排序算法实现了信息检索。最后对搜索引擎进行了相关测试,证实达到了预期的目的。