面向新闻领域的小型垂直搜索引擎
作者单位:南京信息工程大学
学位级别:硕士
导师姓名:高超;闫冠华
授予年度:2018年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:垂直搜索引擎 主题网络爬虫 文本分类 网页排序 Lucene检索框架
摘 要:垂直搜索引擎是一种面向特定领域的搜索引擎。与传统的通用搜索引擎相比垂直搜索引擎更能满足特定人群的搜索需求,对用户群作了领域细分。当用户输入检索关键词时,垂直搜索引擎会精确的返回该特定领域的相关信息。本文提出并设计了一种面向新闻领域的的小型垂直搜索引擎。为此设计了一套基于Heritrix的新闻主题网络爬虫。对爬虫的网页抓取规则以及网页迭代遍历的方式进行了主题定制,使得Heritrix可以仅爬取新闻网页从而过滤其他冗余无用的网页数据。并且针对Heritrix在相同网络域名下爬取网页时无法开启多线程的问题,对Heritrix的爬虫队列进行了改进。引入BKDRHash算法,对每一个待爬取新闻网页的URL计算并生成单独的哈希值,最后根据哈希值将URL平均分配至每个爬虫线程队列中。根据实验对比,大大地改进了爬虫的网页爬取速度。同时本文针对新闻文本类别混乱不清的问题设计了文本分类算法,它是一种基于支持向量机的不均衡文本分类算法。该算法针对不均衡文本数据集问题,运用合成少数类过采样算法(SMOTE)生成插值样本均衡数据集,并通过粒子群优化算法(PSO)迭代进化得到最佳的插值样本,对支持向量机的文本分类能力进行了优化。实验结果表明,新算法大幅优化了支持向量机分类不均衡文本数据集的能力。本文对网页排序理论进行了剖析,设计了一种基于网页主题相关度和更新频率的PageRank网页排序算法。该算法在PageRank算法的基础上兼顾了网页的主题相关度,并引入了网页更新频率因子对新网页的排序优先级进行了调整。实验表明,该算法可以有效地改进搜索引擎的查询准确率。结合上述两种算法,本文基于Lucene检索框架构建了新闻垂直搜索引擎系统。使用Lucene对新闻数据做索引处理之后,用户在搜索界面可直接进行新闻搜索查询。该搜索引擎系统在进行新闻检索之前可以提前选择新闻类别,提高了新闻检索的垂直度和细分度。