对抗环境下的垃圾短信息过滤
作者单位:华南理工大学
学位级别:硕士
导师姓名:吴永贤(Wing W.Y. Ng);陈百基(Chan Patrick P.K.)
授予年度:2015年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着网络与通信科技的发展与普及,手机与网上平台(如︰电子邮件、博客、讨论区等)都已成为人们日常交流通信的重要手段。然而,低廉的运输代价也使得不法分子有机可乘,如今广告、色情、诈骗、迷信等垃圾信息传播的情况越来越严重,垃圾信息已经成为困扰用户的一个重要问题。短信息与传统的垃圾邮件不同,它们有一定的长度限制,比如短信息业务SMS,每次只可以接收或发送160个英文字符。短信息具有长度短、词数少、文本特征不足、口语化程度高等特点,这使得传统的垃圾信息分类器在垃圾短信息分类上的分类效果有所下降。垃圾短信息检测已经被学者们研究了十多年,他们的主要目的在于如何使用机器学习的技术在短信息的文本特征不足的情况下提高垃圾短信的检测率,但是目前还没有基于对抗环境下的垃圾短信息检测的相关研究。在对抗环境下攻击者可以通过改变样本的特征值从而绕过分类器的检测,比如,在垃圾邮件检测中攻击者往往可以在垃圾邮件中插入一些好词来影响分类器对垃圾邮件的检测效果。然而,由于短信息有长度的限制,长度短的好词更加有利于攻击,故攻击者还需要考虑特征长度这一限制条件。此外,现有的一些垃圾短信息分类技术都没有考虑到如何在对抗环境下抵抗攻击者的攻击。在本文中我们将会研究好词攻击和它的防御方法feature reweighting。我们考虑了短信息有长度限制这一特点,针对基于对抗环境下的垃圾短信检测技术进行研究,提出了基于特征长度与权重结合的好词攻击,该攻击不仅会考虑好词的权重而且会考虑好词的长度,它更加符合短信息的应用;另外,我们根据该攻击提出一种具有新的调整函数的feature reweighting防御方法,它的调整函数是基于特征长度与权重结合的。本文使用了两个真实的数据集对提出的方法进行评估与分析并与现有的方法进行了比较。结果显示,与传统的好词攻击相比,提出的好词攻击能够对于短信息起到更好的攻击效果;此外,我们提出的防御方法也比feature reweighting起到更好的防御作用。