微博情感分类算法研究-南通市图书馆

文献详情 >微博情感分类算法研究收藏

微博情感分类算法研究

作者：马莹

作者单位：长春工业大学

学位级别：硕士

导师姓名：赵辉;付琦

授予年度：2019年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：情感分类特征提取特征权值 CHI统计 KNN分类

摘要：如今,人们常常通过各种社交网站上发表的消息来了解当时的热点事件、社会舆论等。随着科技的快速发展,微博也逐渐普及,越来越多的人们开始通过微博来关注时事,从而使微博成为当今最流行的社交平台。在微博上,人们经常发表有关情感或观点的倾向性微博文本,而这种情感的分类会对电子商务、信息预测等方面产生潜在的价值,因此,对微博情感进行分类具有重要的意义。特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,本文针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-Nearest Neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。针对于上述实验使用的KNN分类算法,为了减少传统的K-最近邻分类算法在时间复杂度与训练样本集数量成正比而导致计算量较大以及浪费大量时间的问题,本文利用K-medoids聚类算法对训练样本集进行了剪裁,去除了相似度程度较低的样本,然后结合Hadoop平台的MapReduce框架对传统的KNN分类算法、基于K-medoids改进的KNN分类算法以及本文提出的算法在时间方面对不等的测试样本集进行了并行化计算。实验结果表明:在运行时间方面,本文提出的算法比传统的KNN分类算法缩短了68%-82%,而且随着节点个数的增加,运行的时间也会减少,由此可见,本文提出的基于Hadoop平台改进的KNN分类算法明显的缩短了计算的时间,提高了算法的分类效率。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

微博情感分类算法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

微博情感分类算法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：