文本情感信息抽取关键技术研究
作者单位:河南科技大学
学位级别:硕士
导师姓名:霍华
授予年度:2015年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本情感分析 评价对象 领域无关 情感评价单元 语义特征 依存模板 情感词典
摘 要:随着Web2.0技术的发展和普及,互联网用户已经从单纯的获取信息模式向创造互联网信息模式转变,实现了网站与用户的双向交流。因此,网络上产生了大量的主观性文本,这些文本包含了人们的各种感情和观点。如何利用计算机对这些海量的文本进行处理和分析成为研究者关注的热点,文本情感信息的抽取和分析在这样的背景下应运而生。它在用户评论分析与决策、舆情监控、信息预测等领域有着广阔的应用前景,近些年很多学者和机构都投入了研究。但是目前文本情感信息抽取研究还处于发展阶段,很多方法都不成熟。本课题围绕文本情感信息的抽取任务,在商品评论领域对其进行了深入的研究,研究内容如下:(1)评价对象抽取。在商品评论中,一个至关重要的信息就是评价对象。针对商品评论中评价对象的抽取任务,本文提出了一种领域无关的评价对象抽取方法,称之为M-Score算法。该算法思想源于点互信息算法,其最大的优点是具有领域无关性,便于领域移植。本文首先利用条件随机场模型进行候选评价对象的抽取,然后利用M-Score算法对候选评价对象进行领域相关性处理,最后对评价对象做进一步的筛选。实验中采用了不同领域的语料对该算法进行了验证,实验结果很好的证明了该算法的有效性。(2)情感评价单元抽取。本文针对情感评价单元评价对象,评价词语的抽取任务,提出了一种基于语义分析与依存句法分析相结合的情感评价单元抽取方法。该方法引入了四类语义特征和二十类句法分析依存模板。语义特征的引入弥补了依存模板的不完善性和句法分析的不稳定性的缺陷,句法分析又消除了词语语义歧义问题。采用语义特征和依存句法分析相结合的方法,能使抽取结果更加准确。实验结果验证了该方法的有效性。(3)情感词典构建。在评价对象抽取之后要对其情感倾向性进行分析。本文针对评价对象的倾向性分析任务,对现有的情感词典进行了必要的修正和补充,并对词语的相似度计算方法和极性强度计算规则做出了改进,构建了基于《知网》和点互信息的情感词典。本文利用构建的情感词典对修饰评价对象的评价短语进行了极性分析和极性强度的计算,并与现有情感词典进行对比,实验结果证明了该词典在准确率、召回率和F值三个评价指标方面均有不同程度的提高。