基于主题词的网络热点话题发现
作者单位:中国科学院计算技术研究所 首都师范大学计算机联合实验室
会议名称:《第五届全国信息检索学术会议》
会议日期:2009年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家863高新技术研究项(2007AA01Z438) 中科院计算所2008知识创新基金项目资助
摘 要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最后,以主题词为线索,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现了网络热点话题的发现。通过在TDT4评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得了0.282的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法。实验表明,该算法对网络热点话题发现行之有效。