咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向博客的分布式垂直搜索引擎的设计与实现 收藏
面向博客的分布式垂直搜索引擎的设计与实现

面向博客的分布式垂直搜索引擎的设计与实现

作     者:林茹 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:武斌

授予年度:2021年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:垂直搜索引擎 Elasticsearch 新词发现算法 网页排序算法 

摘      要:判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改进和新词发现算法的改进实现,在此基础上提出了一种面向博客的分布式垂直搜索引擎,对博客网页信息进行获取分析,建立网页索引,并结合用户历史搜索记录,进行了面向博客网页的分布式垂直搜索引擎的设计与实现,提高检索效率和检索准确率。本文主要的创新点及工作如下:(1)针对目前搜索引擎搜索结果排序算法存在的准确率低,排序质量低的问题,改进网页相关性排序算法,结合博客网页的特点,提出了基于BM25相关度的网页排序算法,通过基于锚文本的PageRank算法对网页链接权重进行重分配,同时利用博客网页自身相关属性对搜索结果进行综合排序,提高对新网页的重视;(2)针对目前基于互信息和邻接墒的新词发现算法存在的误分、效率低等问题,使用Trie构建索引树提高搜索效率,同时加入N-Gram模型对分词后的碎片进行拼接,增加长词语的识别;对基于N-Gram模型的拼接词通过内部凝固度和左右邻接墒的计算得到新词;(3)进行搜索引擎系统的详细设计与具体实现。本系统实现的模块包括网页爬虫模块、数据索引模块,以及用户搜索模块,通过对互联网上的网页进行爬取分析,建立数据索引,实现关键词提示、网页搜索结果排序以及网页个性化推荐功能。系统设计与实现过程中主要使用到的相关技术包括网页去重算法、Elasticsearch框架、新词发现算法、网页排序算法、网页推荐算法等。(4)在进行了搜索引擎系统设计与实现后,通过多方面的测试与分析,验证了本系统的实用性、有效性以及实时性。通过对搜索结果的重排序,返回给用户更满意的结果,改善用户体验。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分