面向文本分类的对抗样本防御研究
作者单位:重庆理工大学
学位级别:硕士
导师姓名:刘万平
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:深度学习 文本分类 对抗样本 对抗防御 对抗样本检测
摘 要:深度学习技术日渐成熟,神经网络模型在自然语言处理中扮演着重要角色。然而随着对神经网络地深入研究发现,模型容易受到对抗攻击地干扰,生成的对抗样本能够使网络模型输出错误的预测结果。对抗攻击现象会使得模型的鲁棒性与应用的安全性存在巨大隐患。 文本分类模型应用广泛,但也最容易受到对抗攻击的影响,攻击者设计算法能够破坏模型的分类结果。现有的防御工作通过增强模型鲁棒性和对抗样本输入检测两个方面进行研究。然而,相关鲁棒性增强训练会损失正常训练下的分类准确率,对抗攻击下也会有较大的分类误差。与此同时,对抗样本检测方法依赖于针对对抗样本的某一特征进行学习并检测,缺乏更多层次的检测方法研究。为了解决相关问题,本文设计了引入词频与数据增强的编码训练方法和融合对抗样本差异性特征的检测方法。主要研究工作如下: (1)提出一种基于频率感知与义原增强的单词级文本防御编码。通过频率感知将输入样本中频率较低的单词进行位置编码,引导模型分开侧重训练单词的鲁棒性,低频词与非低频词的有效训练分别保障了模型原始训练准确率和对抗攻击下的分类准确率。数据增强训练词集方面,利用义原标注扩充了训练样本中关键词个数,并增加了训练关键词的同义词数量。此外,设计了编码算法引导模型进行有效地训练。实验结果表明,该编码训练方法保障了正常训练下的模型分类准确率,并分别在Text CNN、LSTM、Bi-LSTM模型上抵御对抗攻击能够降低平均误差至3.6%、4.2%、3.5%。 (2)提出一种基于文本特征融合与掩码语言模型的对抗样本检测方法。对抗攻击前后样本之间存在明显的文本特征差异,利用这种差异性特征能够有效提升基于模型或检测器的检测效果。通过对文本特征进行实验测试并分析,提取了低频词占比与语义相似度两种差异性特征。基于这两种特征差异构建扰动判定公式,从而对输入检测的样本进行扰动大小的划分,分别利用差异性特征与掩码语言模型进行检测。实验研究表明,文本特征融合的方法具有更好的检测效果。对比基于单个掩码语言模型的检测方法,所提方法能够最高提升1.9%的检测准确率与F1分数。