基于相似度量的自适应三支垃圾邮件过滤器
An Adaptive Three-way Spam Filter with Similarity Measure作者机构:计算智能重庆市重点实验室(重庆邮电大学)
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2019年第56卷第11期
页 面:2410-2423页
核心收录:
学科分类:08[工学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61876201,61772096) 重庆市研究生科研创新项目(CYS18244)
主 题:垃圾邮件过滤 决策理论粗糙集 三支决策 相似度量 阈值
摘 要:垃圾邮件过滤是信息时代的一个重要研究课题,一封重要邮件被错分会产生不可估量的代价.因此,如何提高过滤器的性能成为垃圾邮件过滤领域中的核心问题.目前,业界通常采用机器学习算法中的二分类模型以处理垃圾邮件过滤问题.然而,较之于三支决策模型,二分类模型会产生较大的错分代价.作为三支决策的一个重要分支,基于决策理论粗糙集的三支决策模型符合人类认知习惯,且能有效地降低错分代价,进而提高过滤器的性能.然而,在构造损失函数时,少有研究考虑由于等价类之间的差异性而对分类结果带来的影响.因此,在基于决策理论粗糙集的三支决策模型的基础上,提出了一种基于相似度量的自适应三支垃圾邮件分类模型.该模型根据集合方差计算了条件属性的权重,并基于相似度量建立了一种刻画差异信息的综合评价函数,进而根据贝叶斯决策规则构建了一种计算自适应阈值对的方法.实验结果表明所提模型在垃圾邮件过滤领域表现优异.