基于多特征的垃圾微博检测方法
Detection Method of Spam Based on Multi-Features of Micro-Blog作者机构:中国科学院合肥物质科学研究院合肥智能机械研究所合肥230031 中国科学技术大学合肥230026
出 版 物:《计算机系统应用》 (Computer Systems & Applications)
年 卷 期:2017年第26卷第10期
页 面:184-189页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:中国科学院战略性先导科技专项(XDA08040110)
摘 要:随着微博平台的快速发展,垃圾信息检测与过滤也面临着巨大的考验,实时精确地识别垃圾信息对于提高用户的体验以及微博平台的可持续发展意义重大.本文根据新浪微博的真实数据,提出了一种基于多特征的垃圾微博检测方法.首先,提取微博的显式特征(用户特征、内容特征);然后利用文档主题生成模型(LDA)提取微博中的隐含主题特征;最后根据所提取的微博特征利用支持向量机(SVM)构建分类器.实验结果表明,该方法相比于现有方法在准确率和F1值方面都有一定的提升.