咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本数据增强和ELECTRA语言模型的中文文本情感分析方... 收藏
基于文本数据增强和ELECTRA语言模型的中文文本情感分析方法

基于文本数据增强和ELECTRA语言模型的中文文本情感分析方法

作     者:余宏斌 

作者单位:安徽理工大学 

学位级别:硕士

导师姓名:张顺香

授予年度:2022年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:ELECTRA预训练模型 文本情感分类 文本数据增强 注意力机制 BiLSTM 

摘      要:中文文本情感分析是数据挖掘的重要基础之一,旨在自动判定文本中观点持有者对某一话题所表现出的态度。对中文网络评论文本进行情感分析,可以应用于舆情监测,话题监督,口碑分析等场景。对中文网络评论文本进行情感分析存在两个问题:一方面中文网络评论文本的表达方式灵活,语义表达复杂,为抽取高区分度的情感特征带来了一定的难度;另一方面存在负面情感语料远远多于正面情感语料的“类不平衡现象,进而导致模型训练“失衡的问题。为了解决这两个问题,本文提出基于文本数据增强和ELECTRA语言模型的情感分类模型。主要的研究工作内容为:(1)针对中文网络评论文本难以抽取高区分度情感特征的问题,本文提出Ea Bi LSTM模型,以强化中文网络评论文本情感特征抽取的过程。基于目前热门的“迁移学习方式,该模型分别在嵌入层和训练层强化文本情感特征的学习过程。首先,作为优选,在嵌入层,通过ELECTRA模型抽取文本特征;然后,在训练层,通过注意力机制和Bi LSTM模型抽取情感特征并分析相关语义联系;最后在分类层通过Softmax分类器进行分类。实验对比了迁移ELECTRA预训练语言模型与BERT模型的不同特点,并且证明了本文构建的Ea Bi LSTM模型起到了强化中文网络评论文本情感特征抽取的作用。(2)针对“类不平衡场景下的模型训练“失衡问题,本文在Ea Bi LSTM模型的基础上提出EDA-Ea Bi LSTM模型。该模型通过文本数据增强技术在模型的训练上引入更多的先验信息。首先,针对类不平衡的语料,通过EDA文本数据增强技术对其进行部分数据增强以平衡语料(第一次先验信息引入);然后通过构建的组合模型(基于ELECTRA)对增强后的语料进行迭代训练,抽取情感特征(第二次先验信息引入);最后通过全连接层和Softmax分类器进行分类。对比那些仅采用模型调优或扩充文本的方法,实验证明了两次引入先验信息的思路能够在F1指标上获得更多的增益,以更好地解决“模型训练失衡问题。另外,实验还对比了全面增强策略和部分增强策略,结合不同模型所表现出来的效果;并选择F1值的均值作为评价标准,研究了生成文本对比真实文本在训练中的“替换代价的大小。本文主要的创新和贡献为:针对网络评论这种“过于自由化的评论文本,提出一种在嵌入层和训练层强化文本情感特征抽取过程的新方法,该方法可以提高情感分类模型的准确率;为了解决“模型训练失衡问题,本文提出一种“两次引入先验信息思路下的EDA-Ea Bi LSTM模型;本文还探索了“迁移学习中预训练语言模型的应用规律,并以EDA增强技术为切入口,对文本数据增强进行了更深入的研究。图[25]表[11]参[84]

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分