多语言微博Hashtag生成及其应用研究
作者单位:南京理工大学
学位级别:硕士
导师姓名:章成志
授予年度:2016年
学科分类:050302[文学-传播学] 1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 05[文学] 120502[管理学-情报学] 0503[文学-新闻传播学]
主 题:Hashtag 社会化标签 Hashtag生成 Hashtag聚类 关键词抽取
摘 要:Hashtag是用户标注在微博中的主题标签,利用Hashtag能够提高微博中信息组织和信息检索的效率,因此研究Hashtag的基础特性、生成技术、聚类和分类等技术具有重要意义。然而大多数的用户很少给自己所发的微博标注Hashtag,导致包含Hashtag的微博数量较少,这影响了Hashtag的实际应用效果。目前关于Hashtag抽取、推荐与组织等方面的问题,逐渐受到学术界关注,本文重点研究多语言微博的Hashtag生成及其在热点事件发现中的应用。本文通过研究多语言Hashtag的生成及聚类技术,提高微博中信息组织的效率和效果,并将生成的结果应用在H7N9热点事件的分析中。在Hashtag生成技术中利用K近邻思想,分别使用新浪微博和Twitter微博语料进行实验,从语料中选取与目标微博文本最相似的K条微博,从中选取合适的Hashtag。分别比较了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对中英文微博Hashtag抽取结果的影响。目前,Hashtag聚类技术的研究比较少,在Hashtag聚类研究中,本文主要对比了基于标签文档矩阵和基于文档合并的Hashtag聚类策略,在这两种聚类策略中使用了K-Means聚类算法、AP聚类算法和层次聚类算法,并对各种聚类策略与方法进行评估。在基于文档合并的Hashtag聚类策略中分别对比了潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对聚类效果的影响。在研究聚类策略、聚类算法以及文本表示方法对Hashtag聚类结果影响的基础上,找出Hashtag聚类的最佳聚类策略,聚类算法和文本表示方法。多语言微博Hashtag聚类结果描述的目的是从Hashtag类簇中抽取关键词,对不同的类簇进行关键性描述。目前的文本聚类结果描述方法主要有自动标引、自动摘要等,本文使用的关键词抽取技术属于自动标引技术中的一种。目前,关键词的特征主要为统计特征,对语法特征的研究较少。因此本文针对关键词的特点提出关键词的依存关系特征和句法特征,分别在中文和英文数据集中使用支持向量机(SVM)和逻辑回归(LR)分类器对这两种特征进行验证,加入这两种特征后提高了关键词抽取结果的F值。在Hashtag应用部分,从上述Hashtag生成研究、Hashtag聚类研究和聚类结果描述研究中选择最优方法,将其应用在热点事件发现中。首先对不包含Hashtag的微博生成Hashtag,然后对Hashtag进行聚类并从中抽取关键词,最后将聚类结果可视化展示。另外将微博发布的时间因素也进行了考虑,并对全部语料的时间分布、主要类簇以及主要Hashtag的时间分布进行了分析。