基于Single-Pass算法的网络舆情文本增量聚类算法研究
Research on Improved Single-Pass Text Clustering Algorithm in Public Opinion作者机构:内蒙古工业大学信息工程学院呼和浩特010080
出 版 物:《内蒙古工业大学学报(自然科学版)》 (Journal of Inner Mongolia University of Technology:Natural Science Edition)
年 卷 期:2017年第36卷第5期
页 面:364-372页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(61540004) 内蒙古自然科学基金资助项目(2017MS(LH)0601)
主 题:公共舆论 网络舆情 文本聚类 Single-Pass
摘 要:随着信息技术的快速发展,互联网成为主要社会信息传播方式,网络舆情的影响力不断扩大。网络舆情具有内容丰富、信息量大且相关话题种类繁多等特点,虽然聚类技术可以用来发现网民关注的话题,但是传统聚类算法还无法直接应用于海量动态网络舆情监控。本文根据网络舆情动态演化特点,研究高效的增量文本聚类算法,选取经典的增量聚类算法Single-Pass进行了改进,解决了该算法输入数据顺序敏感问题及求解效率问题。实验结果表明,在海量舆情文本聚类过程中,该方法可以大大提升舆情文本聚类效率,同时聚类精度未受到影响。