基于模糊聚类算法的微博用户情感分析研究
作者单位:西南石油大学
学位级别:硕士
导师姓名:耿新宇
授予年度:2014年
学科分类:081203[工学-计算机应用技术] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:模糊聚类 网络爬虫 知网情感词集 词语相似度计算 情感分析
摘 要:随着Web2.0技术的发展,社交网站不断扩展其功能,人们可以在网上尽情地发表自己的观点,释放自己的情感。微博作为近几年来互联网的新兴产物,其情感计算与分析已成为计算机学、自然语言学、人类心理学等社会计算工作的重要研究课题。本文首先研究了模糊聚类相关理论知识,并将其应用于腾讯QQ空间说说的情感分析,为下一步将模糊聚类应用于微博用户情感分类分析提供了可操作性。模糊聚类分析首先要将文本数据数值化,对微博博文信息进行情感计算。因此本文在网络爬虫的技术原理上设计了新浪微博专用数据采集系统,建立了微博源数据库。利用基于知网(HowNet)基础情感词集的词语相似度计算方法计算微博情感词权值,建立了微博情感词库。在情感词库的基础上,分析了包含否定副词和程度副词等修饰词的微博短语情感强度值,并结合短句、短句与短句之间的关系,通过相应的情感值运算方法,计算得出整条微博消息的情感值。最后筛选了50名用户在10个不同时间段的情感值作为原始数据矩阵,利用模糊聚类算法将50名用户进行动态分类,并生成动态聚类图,由图可知根据不同的λ阈值,可以有不同的分类,并用F统计量检验法计算出最佳分类,再利用SPSS对分类结果预测作出每个分类用户的情感走势图,以便更直观地分析用户的情感变化。本文创新点主要在于:抓住人类情感是模糊不定的特征,利用模糊聚类来对已经通过情感计算的微博信息进行分类分析,政府、商家或企业可以根据不同的需求得到不同的分类结果,从而采取相应的措施。