咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >垂直搜索引擎在烟草行业的研究与应用 收藏
垂直搜索引擎在烟草行业的研究与应用

垂直搜索引擎在烟草行业的研究与应用

作     者:陈龙飞 

作者单位:浙江理工大学 

学位级别:硕士

导师姓名:何利力

授予年度:2016年

学科分类:0202[经济学-应用经济学] 02[经济学] 020205[经济学-产业经济学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:垂直搜索 PageRank算法 主题判别 网络爬虫 文档排序 

摘      要:互联网的飞速发展一方面给我们提供了极其丰富的信息,另一方面也加大了信息过滤的难度。互联网用户越来越依赖于搜索引擎来缩小信息检索的范围,从而更高效地获取自己感兴趣的内容。但是,用户的期望结果是小而精,通用搜索引擎追求的目标是大而全,与用户的特定需求南辕北辙。在这种背景下,垂直搜索引擎应运而生。如果把互联网当作一个服务提供者,则其成熟的一条重要标志就是由通用化向订制化发展,垂直搜索引擎的出现即是这种转换的具体表现,也是搜索引擎未来的发展方向。首先,本文结合互联网的发展史,综述了垂直搜索引擎的出现背景及意义。以烟草行业为例,深入分析了企业日益增长的信息检索需求与通用搜索引擎固有局限性之间的矛盾,论证了垂直搜索引擎应用于企业的必要性与可行性。然后结合笔者在烟草企业的实习经历,设计并实现了一种针对烟草行业的垂直搜索引擎。在对垂直搜索引擎的整体架构和关键技术充分研究的基础上,提出了一种“三度过滤的主题判别方法,并提高了PageRank算法在实际应用中的适应性。然后对开源项目Lucene进行了本地化改造,最终开发出一款适用于烟草行业的垂直搜索引擎。本文主要研究内容如下:(1)在研习搜索引擎典型架构的基础上,详细阐述了中文分词、倒排索引和链接分析三项关键技术的实现原理。通过横向对比总结出了各种搜索模型的优缺点,以布尔模型实现基础的文本筛选,以空间向量模型实现高级的匹配运算,从而建立起符合烟草行业特点的搜索模型,兼具简单易行和支持相关性评分两方面优势。(2)编程模拟了Page Rank算法的迭代过程,对出链-入链矩阵中的黑洞问题和PageRank向量的数据失衡问题进行了深入的分析。黑洞问题会造成部分网页垄断PageRank得分,使评分结果有失客观性与科学性;而数据失衡问题会造成迭代过程的收敛速度过慢,无法应用于大规模的计算。本文通过引入马尔科夫链理论对模型加入两次随机性调整,使之更符合上网者随机浏览网页的过程,从根本上杜绝了黑洞问题的产生并加快了PageRank的收敛速度。(3)提出了一种“三度过滤的主题判别方法。借助烟草行业的专业词库,在主题判别的过程中将预判因子、元信息因子、词库因子纳入主题相关度的计算,有效过滤了与主题无关的网页,大大提高了搜索引擎的查准率。另一方面,该算法得出的预判因子还用于调整URL队列的优先级,帮助主题爬虫优先抓取主题相关度更高的网页。(4)通过对Lucene源代码的本地化改造,实现了开源项目与系统开发的兼容性整合。结合原始的空间向量模型,对影响网页欢迎度与主题相关度的各项因子进行调整,将查询词的词频、词类、通用性以及文档长度纳入综合统计,并对不同的查询域进行差异化加权,最终得出了符合烟草行业特点的评分公式。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分