针对文本分类的对抗样本生成技术研究
作者单位:内蒙古科技大学
学位级别:硕士
导师姓名:张晓琳;王永平
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:对抗样本 文本分类 粒子群优化算法 BERT掩码语言模型 防御技术
摘 要:在当今社会的发展中,神经网络的应用场合越来越多,技术也更加成熟,在各个研究领域都取得了一定的研究成果。然而,神经网络容易受到对抗样本的影响,在原始样本中加入人类无法察觉的扰动会使目标模型作出错误的判断,进而产生一定的安全隐患。因此,在自然语言处理(Natrual Language Processing,NLP)领域,学者们围绕文本分类对抗样本的攻击和防御进行了大量的研究。但是,现有的研究大多是基于同义词替换的策略,引入的同义词往往断章取义且攻击性不足。而文本分类对抗样本的防御技术检测对抗词的准确率有待进一步提高。文章面向文本分类的对抗样本生成过程,讨论如何生成具有高攻击性能的对抗样本和对抗样本的防御算法,进而提高文本分类模型的鲁棒性。针对文本分类对抗样本生成过程替换策略单一、搜索空间不适合、文本相似性低、替换词数量过多、对抗样本可读性差等问题,提出了对抗样本生成方法WordDeceit。该方法优化了TextFooler算法的搜索空间,提高了可读性。首先通过移除无贡献的子句和关键词筛选策略定位原始样本中的关键词。然后构建HowNet和WordNet词库搜索空间。最后利用粒子群优化算法在搜索空间中寻找替换词生成对抗样本。极大提高了算法的攻击性能和对抗样本与原始样本之间的语义相似性,使用BERT模型验证WordDeceit方法产生对抗样本的有效性。针对文本分类对抗样本的防御技术在定位样本中对抗词准确率过低的问题,提出了WordRestore防御方法。该方法首先通过检测错误字的概率和单词的位置重要性分数来确定样本中的对抗字。然后将对抗字进行掩码,输入已经训练好的BERT掩码语言模型。最后让模型对掩码后的样本进行预测,得到还原后的样本,剔除对抗字,使目标模型免受算法的攻击。最终能够实现文本分类对抗样本的防御。使用word-CNN和Bi-LSTM目标模型验证WordRestore方法的有效性。实现了文本分类对抗样本的攻防框架,为提高文本分类目标模型的鲁棒性作出了贡献。WordDeceit方法攻击目标模型后的分类准确率降低到7.8%以下,超过了基线方法。WordRestore方法防御目标模型后的分类准确率平均提高到89.2%,接近原始平均分类准确率92.7%,实现了文本分类对抗样本的生成和防御。