咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向多领域非协作环境的分布式检索算法研究 收藏
面向多领域非协作环境的分布式检索算法研究

面向多领域非协作环境的分布式检索算法研究

作     者:陈建豪 

作者单位:华南理工大学 

学位级别:硕士

导师姓名:董守斌

授予年度:2017年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:分布式检索 垂直领域选择 资源库选择 结果融合 

摘      要:当今互联网信息量已然十分庞大,且其中内容的主题纷繁复杂,用户多依赖于搜索引擎来获取信息。不同的搜索引擎关注的领域不同,索引的主题千差万别,用户的一次搜索往往需要在多个搜索平台间切换,由此增加了其搜索成本。分布式检索技术为此提供解决方案,但实际的分布式检索环境大多是非协作环境,即搜索引擎仅能为分布式检索系统提供极其有限的描述信息,这为分布式检索带来了极大的挑战。本文重点研究非协作环境下多领域分布式检索系统的关键技术,包括垂直领域选择、资源库选择和结果融合算法等,设计相应的算法框架。本文研究工作如下:(1)在垂直领域选择算法上,本文提出了基于LDA模型构造垂直领域描述和查询词描述的算法框架,并研究了在不同垂直领域描述方法下垂直领域选择算法的效率。在FedWeb基准数据集上的实验结果显示,该算法与以往的垂直领域选择算法在指标nDCG@10和nDCG@20上均有较大提升。(2)在资源库选择算法上,本文在利用垂直领域选择结果的基础上,结合了资源库选择因子和LDA模型,提出了基于多特征评分的垂直领域算法框架。该算法的实验结果表明,其结合多特征评分的方式能有效填补单特征评分的缺点,并大幅提升算法效率。(3)在结果融合算法上,本文提出了基于LR和GBDT的结果融合算法,该算法提取了文档、资源库和垂直领域三个维度的特征,并分别采用LR和GBDT模型进行模型训练和结果预测。实验结果表明其与以往的基于线性融合的结果融合算法对比有同等的算法性能,但该算法无需人工调参,且多维度特征能更好反映数据的真实性,具有更强的实用性。本文最后对上述三方面算法框架进行了分析,并根据其中不足制定了后续优化方案。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分