基于攻击引导扩散的中文对抗样本生成方法
作者机构:蚌埠学院计算机与信息工程学院 安徽工程大学安徽省工业互联网智能应用与安全工程研究中心 安徽理工大学计算机科学与工程学院 合肥综合性国家科学中心人工智能研究院 淮南联合大学信息工程学院
出 版 物:《清华大学学报(自然科学版)》 (Journal of Tsinghua University(Science and Technology))
年 卷 期:2024年
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金面上项目(62076006) 认知智能全国重点实验室开放课题(COGOS-2023HE02) 安徽高校协同创新项目(GXXT-2021-008) 安徽省高校自然科学研究重点项目(2022AH051921,2022AH051909) 安徽省高校优秀青年人才支持计划重点项目(gxyq ZD2021135) 蚌埠学院高层次人才科研启动基金(BBXY2020KYQD02) 安徽工业大学工程研究中心开放项目(IASII22-08) 安徽省科技特派员农业物质技术装备揭榜挂帅项目(2022296906020001) 蚌埠学院2024年校级科研一般项目(2024ZR02,2024ZR03) 蚌埠学院2024年校级科研应用型科研项目(2024YYX48pj)
主 题:对抗样本生成 引导扩散 条件扩散 扩散模型 文本生成
摘 要:中文对抗样本生成作为自然语言处理领域的重要研究内容,一直受到众多学者的广泛关注。先前的中文对抗样本生成方法主要有替换字词、改变词序等,生成的对抗样本攻击效果差且容易被检测模型识别。该文提出基于攻击引导扩散的中文对抗样本生成方法DiffuAdv。将扩散模型引入中文对抗样本生成中,通过模拟文本对抗样本攻击时的数据分布来增强其扩散机制,利用对抗样本与原始样本之间的变化梯度作为引导条件,在预训练阶段指导模型的逆扩散过程,进而生成更自然且攻击成功率更高的对抗样本。在多个数据集上对自然语言处理领域的不同任务与多种方法进行了对比实验验证。结果表明,本文方法所生成的对抗样本具有高攻击成功率。此外,消融实验也验证了攻击梯度引导在提高对抗样本生成质量的有效性。经过困惑度(PPL)度量实验,本文方法所生成的对抗样本平均PPL仅为0.518,验证了其具有强鲁棒性。DiffuAdv的提出丰富了文本对抗样本生成的研究视角,也拓宽了文本情感分类、因果关系抽取及情感原因对抽取等任务的研究思路。