抗好词攻击的中文垃圾邮件过滤模型
Chinese spam filtering model for combating good word attacks作者机构:电子科技大学计算机科学与工程学院成都611731
出 版 物:《电子测量与仪器学报》 (Journal of Electronic Measurement and Instrumentation)
年 卷 期:2010年第24卷第12期
页 面:1146-1152页
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
基 金:国家自然科学基金(编号:60903157 60973118)资助项目 国家"863"计划(编号:2009AA01Z422)资助项目
主 题:中文垃圾邮件过滤 敌手学习 多示例学习 逻辑回归 好词攻击 鲁棒性
摘 要:针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。