咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向微博的热点话题发现及跟踪 收藏
面向微博的热点话题发现及跟踪

面向微博的热点话题发现及跟踪

作     者:刘佳 

作者单位:华南理工大学 

学位级别:硕士

导师姓名:王振宇;王锋

授予年度:2012年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:微博 话题发现 话题跟踪 Single-Pass 语义框架 

摘      要:随着web2.0的不断发展和基于web2.0的应用不断出现,网民的交流方式大大发生了改变。微博是最近得到高速发展的一个基于web2.0的应用。网民通过微博,可以发表自身信息,关注他人信息或者转发、评论他人的信息。但这也使得网民容易陷入局部信息而忽略了整体信息。因此本文从微博用户发表的信息出发,对微博热点话题进行研究。研究的主要内容包括以下几个方面: 1.从微博的组织方式出发,对微博信息进行采集。由于传统的爬虫在微博平台上受到了比较大的限制,所以本文设计了支持Ajax的微博爬虫,爬虫模拟网民浏览微博的方式对微博信息进行采集。同时,讨论了微博信息噪音存在的情况,并对不同的情况使用不同的方式进行预处理。 2.针对微博由于字数限制而导致无法使用传统长文本聚类方法进行话题发现的情况,本文提出了微博讨论树的概念,并设计了微博讨论树合并算法,使短文本组织成长文本。 3.对微博话题发现进行研究,本文实现了微博语义框架。但单纯从语义出发对微博进行话题发现存在一定缺陷。因此,本文提出使用基于Single-Pass与语义框架相结合的SPS(Single-Pass And Semantics)算法。经实验验证,SPS算法比单纯使用基于统计和单纯使用基于语义的算法有一定的提高。 4.为了对热点话题进行跟踪,本文定义了微博的能量,微博讨论树的能量以及话题的能量,并给出计算话题当前能量值的算法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分