基于Single-Pass的在线话题检测改进算法
An Improved Algorithm Based on Single-Pass for Online Topic Detection作者机构:天津科技大学计算机科学与信息工程学院天津300457 天津科技大学食品安全管理与战略研究中心天津300222
出 版 物:《天津科技大学学报》 (Journal of Tianjin University of Science & Technology)
年 卷 期:2017年第32卷第6期
页 面:73-78页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:天津市教委重大项目(2014ZD22) 天津市应用基础与前沿技术研究计划(14JCQNJC00300)
主 题:网络舆情 Single-Pass 相似度计算 食品安全
摘 要:现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.