金融领域的博客信息采集与排序算法研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:王晓龙
授予年度:2009年
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
摘 要:博客是一个个人性与公共性相结合的媒介,它充分利用了网络双向互动,超文本链接,动态更新,覆盖范围广的特点,其精髓不是表达个人思想或是记录个人的日常经历,而是从个人的角度,来精选和链接互联网上最具有价值的信息、知识与资源,为他人提供共享资源。 随着博客的迅猛发展,带来了海量的博客资源,如何组织,检索,有效利用丰富的博客资源,挖掘有价值的信息引起了包括科研界和工业界的广泛关注,各种方法和技术的应用正在被探索中。目前google、百度等主要中英文搜索引擎加大了对博客的关注,但是对于博客的排序基本上还是采用传统的页面排序算法。 本课题在分析了博客与传统网页之间的区别的基础上,根据博客页面特征设计实现了一种基于RSS结构的博客爬虫系统,针对网络上的金融博客文章进行特定的爬取。对现有的博客搜索结果排序算法进行分析,对比BlogRank、B2Rank和EigenRumor等算法,找出可能影响博客排序的因素,并对可能影响最终排序结果的因素通过量化的方式加以评估,最后给出了一种不基于查询的金融博客搜索结果排序算法。 在此基础上,设计并实现一个博客系统平台,为爬取到的金融博客文章提供展示平台,并与整个海天园知识服务系统整合,提供常见博客服务。最后,对算法的试验结果利用文章热度进行评价,评价结果表明,对于特定领域,找到一种不基于查询的博客排序算法是可行的,68%的准确率也验证了算法的有效性。