对抗文本自适应生成技术研究
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:高海昌
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:对抗样本 深度学习 文本分类 自然语言处理 自适应攻击
摘 要:随着深度学习技术的发展,相关技术已经广泛应用于日常生活中。深度学习模型不仅在图像领域中被广泛使用,用于在目标检测、图像分类和人脸识别等典型任务场景中来获得更好的表现,而且在文本领域中也有越来越多的自然语言处理任务尝试使用深度学习模型来提升效果,包括情感分析、垃圾邮件分类以及机器翻译等。然而,深度学习模型很容易受到对抗样本的攻击。即使在原始数据中加入微小的改动,也会对模型的输出产生很大的影响。研究者通过向原始数据中添加人为构造的微小扰动来生成对抗样本,以此来攻击深度学习模型。 由于对抗样本的存在,深度学习技术在应用和推广中存在一些安全隐患。在文本领域,研究者已经提出了多种针对不同场景的文本对抗样本生成方法,根据攻击级别可以分为字符级、单词级和语句级。由于文本的离散属性,这些方法虽然能够使模型误分类,但是也可能使对抗样本可读性较差。由于大部分方法只针对一种攻击级别进行攻击,可能导致生成的对抗样本较为单一,鲁棒性较差。针对这些问题,本文提出一种联系上下文并结合单词级和语句级的替换方式来自适应生成对抗样本的攻击方法,主要研究工作包括以下几点: 1.提出一种针对英文文本的对抗样本生成方法。该方法分为关键词定位和关键词修改两部分。在关键词定位阶段,使用结合文本上下文的方式进行计算定位,找到更有效的关键词。关键词修改部分又分为替换空间构建和替换内容选择两部分。在构建阶段,使用三种不同的方式构建替换空间,结合单词级和语句级的替换内容来提高攻击效果,增强鲁棒性。在选择阶段,自适应选择合适的内容,通过贪心自适应选择具有较高攻击效果的内容,或者通过边界自适应选择对文本影响较小的内容。最终生成有效的对抗样本。 2.在多个数据集和模型上进行实验评估。本文选择了情感分析、恶意检测和四分类数据集一共三种不同类型的数据集进行攻击,在不同领域的数据上进行实验,分析攻击效果。实验中则主要是在Text CNN和Bi LSTM两个常用的文本分类模型上进行攻击实验,通过准确率的下降程度来评估对抗样本的攻击效果。此外,最后还在先进的预训练模型BERT和Ro BERTa上进行攻击实验,验证方法的有效性。 3.对对抗样本生成方法进行多方面的评估。首先在验证本方法攻击效果的基础上,和现有的攻击方法进行比较,多角度验证对抗样本的有效性。其次针对攻击中的不同因素进行分析,讨论影响因素,并对结果进行分析。之后通过使用不同的防御方法进行防御,验证本文方法生成的对抗样本的攻击鲁棒性。最后进行消融实验,验证本文方法的优势。