咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >金融领域的博客信息采集与排序算法研究 收藏
金融领域的博客信息采集与排序算法研究

金融领域的博客信息采集与排序算法研究

作     者:陈辉 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:王晓龙

授予年度:2009年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

主      题:金融 博客搜索 信息检索 链接分析 网页排序 

摘      要:博客是一个个人性与公共性相结合的媒介,它充分利用了网络双向互动,超文本链接,动态更新,覆盖范围广的特点,其精髓不是表达个人思想或是记录个人的日常经历,而是从个人的角度,来精选和链接互联网上最具有价值的信息、知识与资源,为他人提供共享资源。 随着博客的迅猛发展,带来了海量的博客资源,如何组织,检索,有效利用丰富的博客资源,挖掘有价值的信息引起了包括科研界和工业界的广泛关注,各种方法和技术的应用正在被探索中。目前google、百度等主要中英文搜索引擎加大了对博客的关注,但是对于博客的排序基本上还是采用传统的页面排序算法。 本课题在分析了博客与传统网页之间的区别的基础上,根据博客页面特征设计实现了一种基于RSS结构的博客爬虫系统,针对网络上的金融博客文章进行特定的爬取。对现有的博客搜索结果排序算法进行分析,对比BlogRank、B2Rank和EigenRumor等算法,找出可能影响博客排序的因素,并对可能影响最终排序结果的因素通过量化的方式加以评估,最后给出了一种不基于查询的金融博客搜索结果排序算法。 在此基础上,设计并实现一个博客系统平台,为爬取到的金融博客文章提供展示平台,并与整个海天园知识服务系统整合,提供常见博客服务。最后,对算法的试验结果利用文章热度进行评价,评价结果表明,对于特定领域,找到一种不基于查询的博客排序算法是可行的,68%的准确率也验证了算法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分