不平衡数据分类的类依赖属性加权朴素贝叶斯算法改进
Class-Specific Attribute Weighted Naïve Bayes Improvement for Imbalanced Data Classification作者机构:华中科技大学数学与统计学院湖北武汉430074 华盛顿大学文理学院华盛顿西雅图98195
出 版 物:《应用数学》 (Mathematica Applicata)
年 卷 期:2022年第35卷第2期
页 面:463-468页
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学]
摘 要:朴素贝叶斯分类器(Naïve Bayes,NB)是一种简单而有效的分类器,特别适用于中小规模数据分类.但作为以整体分类正确率为指导的传统分类方法,它在不平衡数据分类中对少数类的分类能力较弱.针对此问题,本文采用属性加权的方法增强朴素贝叶斯对于少数类的分类能力.类依赖属性加权朴素贝叶斯(class-specific attribute weighted naïve Bayes,CAWNB)是一种有效的属性加权朴素贝叶斯算法.本文通过在条件对数似然(conditional log-likelihood,CLL)和均方差(mean squared error,MSE)目标函数中引入平衡系数λ,提出了两个新的目标函数λ-CLL和λ-MSE,并进一步提出了通过最大化λ-CLL或最小化λ-MSE确定最优权重值的两个不平衡数据分类算法CAWNB^(λ-CCL)和和CAWNB^(λ-MSE).在不平衡的UCI数据集上的实验表明,这样的属性加权可以增强朴素贝叶斯对于少数类的分类能力,同时不会过分破坏其的总体分类能力.