伴随着信息技术和数字经济的高速发展,互联网中的数据信息呈现飞跃式增长,这在为人们带来便利的同时也引发了数据信息人工处理负担过重等问题。细粒度情感分析作为自然语言处理领域的一项基础性工作,在阅读理解、舆情分析、对话系统等许多下游任务中起到重要作用。尽管当前深度学习算法中的语言模型在一些公开细粒度情感分析数据集上表现优异,但当面对多目标复杂文本的序列预测干扰时,文本的情感分类的精确率和召回率极易受到影响,从而降低模型的情感分析性能。针对上述问题,本文将英文评论文本作为分析对象,以提高细粒度情感分析算法性能为目标展开研究工作,评价对象抽取和评价对象情感极性分析两个子任务着手,通过权重共享、预训练模型和注意力模型三个方面对英文文本细粒度情感分析算法进行改进,旨在优化模型面对多目标复杂场景下序列预测不准确时的F1值。主要内容如下:(1)通过提出了一种基于权重共享的细粒度情感分析模型WSABSA(Weight Sharing Aspect Based Sentiment Analysis),解决了英文文本中因序列预测不准确而导致的情感分类模糊的问题。该模型在联合了注意力核模块和ATAE-GRU网络的基础上,对评价对象抽取和评价对象情感极性分析两个子任务算法的网络层参数进行特征融合权重共享,提升了细粒度情感分析算法的情感分类精确率和召回率。实验结果表明,基于特征融合权重共享的方法在英文文本细粒度情感分析任务中有着良好的表现,相较于传统模型,WSABSA模型在三个英文评论基准数据集上的情感分类性能都有不同程度的提高。(2)通过嵌入任务自适应预训练TAPT网络,提出了TAPT-WSABSA模型(Embedding Task-Adaptive Pretraining into WSABSA),解决了目标任务微调效果不佳的问题。该模型通过在与任务相关的无标注语料上进行继续预训练,然后再对特定任务进行微调的方式,帮助模型更好的理解语言特征,避免灾难性遗忘和过拟合情况的发生,从而改善了目标领域词汇表的覆盖率和下游任务的模型性能。实验结果表明,任务自适应预训练TAPT网络的嵌入可以有效提升模型的特征提取能力和时间利用率,从而优化其情感分类的准确率。(3)通过嵌入分层注意力机制HAN,提出了HAN-TAPT-WSABSA模型(Embedding Hierarchical Attention Networks into TAPT-WSABSA),解决了文本,特别是长文本中语义信息获取效果不佳的问题。该模型通过引入单词和句子的两级注意机制,给予文档中的不同句子和句子中的不同单词不一样权重的方式,对模型进行序列优化和针对性表示,提高了评价对象特征提取的性能。实验结果表明,加入分层注意力机制HAN的WSABSA模型可以有效提升文本语义信息的获取水平。
暂无评论