面向微博情感分析的本体自动抽取关键技术研究
作者单位:首都师范大学
学位级别:硕士
导师姓名:刘金刚;张华平
授予年度:2014年
学科分类:081203[工学-计算机应用技术] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着新型互联网应用的迅猛发展,微博快速崛起,用户数达到2.81亿,使用率达到45.5%,每天数以千万人通过微博分享自己对各类话题的观点与情感,如何自动感知微博主体的情感,并从宏观上科学研判微博社区对特定话题的观点倾向性,已经成为微博计算与舆情分析亟待解决的基本科学问题。 然而,以往的情感分析大都是基于整个传统长文本层面,并且由于微博内容短小且不规范,碎片化与主体化特征日益凸显,传统的情感分析算法存在本质缺陷,效率低下且效果很难满足实际需求。利用情感词典分析用户产生内容的情感倾向性是简单有效的方法。但由于情感词典规模有限,同时网络用语新词层出不穷,语言使用不规范,人工整理耗时耗力,领域性强。为解决以上问题,本文提出一种自动挖掘潜在情感词并计算其情感权重的算法,该算法与应用领域无关,具有良好的扩展性。该方法基于贝叶斯原理和大数据挖掘,能够挖掘未知的情感词,并根据其情感权重值的大小判断其情感极性及情感倾向性程度,可有效扩展情感词典,并丰富情感词典的精细化使用,从而实现了情感词库的自动挖掘与获取。同时,在此基础之上,实现情感主体属性的识别,包括观点句识别、情感对象抽取及情感倾向性判断,从而完成情感分析的本体自动抽取。 本文在理论研究的基础上进行算法的实践验证,同时为验证该方法能够实现跨领域,本文又分别针对京东商城、豆瓣、大众点评三组评论语料做了实验。其结果的准确率都基本在90%以上,验证了以上算法的有效性和实用性,为各种互联网应用,不仅仅是微博,提供了情感分析的基础。