微博情感分类算法研究
作者单位:长春工业大学
学位级别:硕士
导师姓名:赵辉;付琦
授予年度:2019年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:情感分类 特征提取 特征权值 CHI统计 KNN分类
摘 要:如今,人们常常通过各种社交网站上发表的消息来了解当时的热点事件、社会舆论等。随着科技的快速发展,微博也逐渐普及,越来越多的人们开始通过微博来关注时事,从而使微博成为当今最流行的社交平台。在微博上,人们经常发表有关情感或观点的倾向性微博文本,而这种情感的分类会对电子商务、信息预测等方面产生潜在的价值,因此,对微博情感进行分类具有重要的意义。特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,本文针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-Nearest Neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。针对于上述实验使用的KNN分类算法,为了减少传统的K-最近邻分类算法在时间复杂度与训练样本集数量成正比而导致计算量较大以及浪费大量时间的问题,本文利用K-medoids聚类算法对训练样本集进行了剪裁,去除了相似度程度较低的样本,然后结合Hadoop平台的MapReduce框架对传统的KNN分类算法、基于K-medoids改进的KNN分类算法以及本文提出的算法在时间方面对不等的测试样本集进行了并行化计算。实验结果表明:在运行时间方面,本文提出的算法比传统的KNN分类算法缩短了68%-82%,而且随着节点个数的增加,运行的时间也会减少,由此可见,本文提出的基于Hadoop平台改进的KNN分类算法明显的缩短了计算的时间,提高了算法的分类效率。