咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于掩码语言模型的中文BERT攻击方法 收藏

基于掩码语言模型的中文BERT攻击方法

Chinese BERT Attack Method Based on Masked Language Model

作     者:张云婷 叶麟 唐浩林 张宏莉 李尚 ZHANG Yun-Ting;YE Lin;TANG Hao-Lin;ZHANG Hong-Li;LI Shang

作者机构:哈尔滨工业大学网络空间安全学院黑龙江哈尔滨150001 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2024年第35卷第7期

页      面:3392-3409页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61872111) 

主  题:深度神经网络 对抗样本 文本对抗攻击 中文BERT 掩码语言模型 

摘      要:对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本,敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本.研究对抗文本生成方法,能对深度神经网络的鲁棒性进行评价,并助力于模型后续的鲁棒性提升工作.当前针对中文文本设计的对抗文本生成方法中,很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击.面向中文文本分类任务,提出一种针对中文BERT的攻击方法Chinese BERT Tricker.该方法使用一种汉字级词语重要性打分方法——重要汉字定位法;同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换.实验表明,针对文本分类任务,所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下,且其多种攻击性能明显强于其他基线方法.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分