面向舆情监控的微博热点话题发现及演化分析研究
作者单位:内蒙古工业大学
学位级别:硕士
导师姓名:刘利民;巩韶飞;许志伟
授予年度:2018年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:微博作为当前盛行的社交工具之一,伴随着网民生活,深受网民喜爱,微博具有发布内容短、操作简单、传播及时、言论自由等特点,这使得网民可以随心所欲地发表个人观点、获取各类信息、转发与评论他人信息。随着网民规模的不断扩大,微博工具频繁地被使用,导致聚焦在微博平台的数据呈爆炸式增长,这些数据的格式和内容可能非常散乱,噪音数据较多,如果仅靠人工筛选,不仅会增加工作量,而且很难快速发现热点话题。那么,基于现有的热点话题发现技术,传统大多数学者采用基于向量空间模型的文本聚类算法,在处理长文本数据时已取得了较好的结果,但是在处理微博短文本内容时,由于微博内容短、特征词少,仅凭词语字面意思判断文本相似度,会影响话题发现准确性。基于此,本文要完成的研究工作如下:本文采用LDA(Latent Dirichlet Allocation)模型发现不同时间的微博热点话题,通过与传统的K-means算法进行实验对比,验证该模型话题发现的准确性。同时,在微博话题发现的过程中,需人工设置不同时间的话题数目,本文采用中国餐馆过程(Chinese Restaurant Process),动态确定微博话题数,避免手工参与话题数设置问题。网络中的数据时刻在更新,不可能一次性获得全部数据,如果数据每更新一次都要进行重复学习,不仅会消耗大量的时间,而且不能及时追踪话题。话题存在演变特性,不同阶段讨论的话题有不同的侧重点,为了及时捕获话题的演变情况,本文在热点话题发现的基础上,构建一种动态增量式话题演化模型,将数据集按照时间划分为历史数据集与增量数据集,使用历史数据集的微博热点话题发现结果推断新增微博数据集的微博话题分布,完成话题内容的追踪。通过实验分析,该模型能够直观地展示出话题内容的演变情况,并且节省了时间。本文设计并实现微博热点话题发现及演化分析系统。该系统包括数据预处理、话题发现、话题演化分析与个人信息维护模块,基于实际数据进行了系统测试,并进行各模块的功能展示,验证了以上工作的可行性及有效性。