基于实时词共现网络的微博话题发现
Micro-blog hot-spot topic discovery based on real-time word co-occurrence network作者机构:昆明理工大学信息工程与自动化学院昆明650500 昆明理工大学教育技术与网络中心昆明650500 云南省计算机技术应用重点实验室(昆明理工大学)昆明650500
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2016年第36卷第5期
页 面:1302-1306页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:话题发现 实时共现网络 短文本 Single-Pass聚类 热度计算
摘 要:针对微博的实时性、稀疏性和海量性特点,提出基于实时词共现网络的话题发现模型。首先,从原始语料中筛选出主题词集合,再利用时间参数计算共现主题词的关系权重以实现词共现网络的构建,通过该网络推算出与话题关联性强的潜在特征词以解决微博特征词的稀疏性;其次,采用改进Single-Pass算法实现话题增量聚类;最后,对每个话题的主题词按热度计算进行排序,获得最具代表性的话题主题词。实验结果表明,该模型与经典Single-Pass聚类算法相比,话题发现准确率约提高6%,综合指标提高8%。实验结果证明所提模型的有效性和准确性。