咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向丝绸领域的垂直搜索引擎关键算法研究 收藏
面向丝绸领域的垂直搜索引擎关键算法研究

面向丝绸领域的垂直搜索引擎关键算法研究

作     者:张小莉 

作者单位:苏州大学 

学位级别:硕士

导师姓名:姚建民

授予年度:2008年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:垂直搜索引擎 网页信息抽取 抽取规则 索引库 

摘      要:垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域,如化学。 本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。 最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分