基于层次化双向LSTM的评论方面级别情感分析研究
作者单位:吉林大学
学位级别:硕士
导师姓名:左万利
授予年度:2019年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:方面级别情感分析 递归记忆网络 双向LSTM 注意力机制 层次化模型
摘 要:近年来,随着购物网站等反馈型网站的兴起和发展,能否从互联网海量的评论数据中精确把握用户对产品或事件的多个方面(aspect)的情感态度,从企业改良产品、消费者选择产品、政府准确把握舆情等多个角度考虑都有极其重要的意义。基于方面级别的情感分析已经变成自然语言处理领域的热门研究方向之一。与传统的情感分析相比,基于方面级别的情感分析(Aspect-Based Sentiment Analysis,ABSA)可以挖掘出不同的评论对象分别对应的情感极性,分析的层次也比传统的情感分析更深。传统的情感分析与基于方面级别的情感分析之间研究对象和目标是不同的。前者的研究对象可能为文档或句子,目标是判断一段文本整体或子句的情感极性;而基于方面级别的情感分析的研究对象是评论对象,目标是分析文本中多个评论对象的情感极性。近年来,结合注意力机制的递归记忆网络模型(Recurrent Attention Network on Memory,RAM)在基于方面级别情感分析的研究中取得了巨大的成功。RAM不仅具有结构简单的特点,而且由于该模型中含有记忆网络,所以还有运行速度快的优点,同时,注意力机制的存在使得深度记忆网络可以得到上下文单词在推断某个评论对象的过程中起到的重要程度。本文在RAM模型的基础上提出了两种改进方法,主要内容如下:1.由于现有的RAM模型中位置权重memory模块中位置权重是通过启发式方法的方式计算得来的,这种计算方式得出的位置权重是相对固定的,针对这个问题本文提出了四种新的位置权重计算方法,通过动态计算位置权重数值来达到更好地描述位置信息的目的。本文还对位置权重进行了扩展,提出了基于词性的权重、基于词性的卷积神经网络权重和基于情感词典的权重,通过引入词性属性和情感词典信息能更准确地获取情感词和评论对象的情感极性之间的关系,从而提高预测准确率。2.本文还提出了一种基于层次化的双向LSTM网络的RAM改进模型,具有保留LSTM网络获取的句子中的词序信息和保留长距离依赖的优点,同时具有层次化带来的优点,即能够整合其他子句对当前子句之间的联系。因为一条评论中描述的不同评论对象的情感极性往往差别不大,所以这种模型可以整合子句之间的关系。本文选取SemEval 2014任务4中的laptop和restaurant两个数据集作为实验数据集。通过进行对比实验,发现本文所提出的改进能够取得较好的效果。