面向不均衡数据的重采样算法
Resampling Algorithm for Unbalanced Data作者机构:江南大学人工智能与计算机学院江苏无锡214122
出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)
年 卷 期:2024年第45卷第3期
页 面:542-548页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:中国博士后科学基金项目(2018T110441)资助
摘 要:针对欠采样可能丢弃过多的有用信息,合成少数类的过抽样技术(Synthetic Minority Over-sampling Technique,SMOTE)可能会引入过多的噪声的问题,提出了SMOTE改进算法.该算法首先使用聚类算法将少数类分为若干个簇,随机选择簇中的若干样本合成中间样本点,再与簇芯合成新的样本点,然后将随机欠采样(Random Under-Sampling,RUS)和SMOTE改进算法结合,提出了RUCSMOTE算法.该算法首先根据当前样本不平衡比率,使用随机欠采样,再使用SMOTE改进算法对少数类进行过采样,最终得到平衡的数据集.通过理论分析可知,RUCSMOTE算法结合两种算法的优点,减少过拟合的风险,同时减少因为欠采样丢失的多数类信息.在20个KEEL不平衡数据集上的实验结果表明,对于不均衡分类,相对于另外7种重采样算法,评价指标AUC与GM普遍提高了2~7个百分点.