一种适合不平衡数据集的新型提升算法
New algorithm of AdaBoost for unbalanced datasets作者机构:山东师范大学信息科学与工程学院济南250014 山东工会管理干部学院信息工程学院济南250100 山东省分布式计算机软件新技术重点实验室济南250014 浪潮集团有限公司济南250101
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2011年第47卷第28期
页 面:169-172,175页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山东省科技研究计划项目(No.2007ZZ17 No.2008GG10001015 No.2008B0026 No.ZR2010FM021) 山东省教育厅科研项目(No.J09LG02)
摘 要:提出了一种新的适用于不平衡数据集的Adaboost算法(ILAdaboost),该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习,由于抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。该算法在UCI的10个典型不平衡数据集上进行实验,在保证多数类分类精度的同时提高了少数类的分类精度以及GMA。