基于双层数据增强的监督对比学习文本分类模型
Supervised Contrastive Learning Text Classification Model Based on Double-Layer Data Augmentation作者机构:长春工业大学计算机科学与工程学院长春130012
出 版 物:《吉林大学学报(理学版)》 (Journal of Jilin University:Science Edition)
年 卷 期:2024年第62卷第5期
页 面:1179-1187页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:吉林省发展和改革委员会项目(批准号:2022C047-7) 长春市科技发展计划项目(批准号:21GD05)
摘 要:针对DoubleMix算法在数据增强时的非选择性扩充及训练方式的不足,提出一种基于双层数据增强的监督对比学习文本分类模型,有效提高了在训练数据稀缺时文本分类的准确率.首先,对原始数据在输入层进行基于关键词的数据增强,不考虑句子结构的同时对数据进行有选择增强;其次,在BERT隐藏层对原始数据与增强后的数据进行插值,然后送入TextCNN进一步提取特征;最后,使用Wasserstein距离和双重对比损失对模型进行训练,进而提高文本分类的准确率.对比实验结果表明,该方法在数据集SST-2,CR,TREC和PC上分类准确率分别达93.41%,93.55%,97.61%和95.27%,优于经典算法.