主题搜索引擎的关键技术研究与实现
作者单位:武汉理工大学
学位级别:硕士
导师姓名:周彩兰
授予年度:2010年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:主题搜索引擎 网络爬虫 URL搜索策略 主题孤岛 贝叶斯分类器
摘 要:随着网络上信息量的极速增长,Web上出现了大量的重复信息和垃圾信息,用户感觉很难快速找到自己真正需要的信息,通用搜索引擎面临着信息采集规模、更新速度和专业化需求等多方面的挑战。面对这些挑战,针对特定主题和个性化信息检索的主题搜索引擎(vertical search engine or topical search engine)应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点,本论文的研究就是以这一热点和难点技术而展开的。 本文首先对通用搜索引擎的组成部分作了简单介绍,并细述了其工作原理。进而对主题搜索引擎的一些关键技术如主题网络爬虫、信息抽取、文本分类、网页排序等进行了详细的阐述。在探讨几种文本分类算法中,本文对贝叶斯分类算法进行了改进,鉴于网页中的一些HTML标记中的关键词能更好的反映一个页面的主题,在改进的算法中对这些词赋予了较大的权重系数,并通过实验与数据分析本文改进的贝叶斯分类算法在分类准确度上有了较大的提高。 本文重点讨论了主题网络爬虫的搜索策略,分别论述了基于内容和基于链接的搜索策略。考虑到web页面上存在的主题孤岛问题,提出了一种新的基于内容和链接分析的URL搜索算法,可以使网络蜘蛛穿越隧道爬取更多的相关主题页面来解决主题孤岛问题,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。 最后对本文提出的URL搜索算法进行了实验分析,以ODP分类目录索引作为实验环境,对广度优先搜索策略、最好优先搜索策略和本文提出的基于内容和链接分析的URL搜索策略进行了测评比较,结果表明本文提出的URL搜索算法在目标召回率标准方面得到了提高,使主题搜索引擎在保证查准率的基础上返回更多主题相关的页面。