数据不平衡分类问题研究
作者单位:中国科学技术大学
学位级别:硕士
导师姓名:唐珂
授予年度:2011年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:不平衡数据 上采样技术 最大间隔 最大化AUC 线性
摘 要:在数据挖掘和机器学习领域,大多数分类算法建立在各类数据分布平衡的假设之下,然而二类不平衡数据广泛地存在于人们的现实生活和实践生产中。在很多领域,研究不平衡数据具有重要的商业价值和应用价值。传统的分类学习算法在类分布均衡的假设下以寻求数据集总体分类准确率最大为目标,这并不适合不平衡数据集的学习。目前解决不平衡分类问题的方法大致可以分为两类,即数据层面上的采样方法和算法层面上的方法。 采样方法在不平衡数据集学习上的作用是通过改变数据分布实现的。之前的研究成果表明,对于一些通用的分类器来说,在平衡数据集上所取得的分类性能要好于在不平衡数据集上所取得的分类性能。这些实验性的研究为采样方法应用于不平衡数据学习提供了契机。本文首先研究上采样技术对不平衡数据分类学习的作用和影响。在调研了现有的比较流行的上采样技术的特点之后,运用最大间隔理论的方法分析上采样技术的优缺点,在此基础之上提出了基于最大化间隔的上采样算法MSYN。为了减少基于MSYN采样技术偏置于最近邻规则对分类性能的影响,本文进一步提出了一种分类器假设间隔的近似计算方法,在此基础之上对上采样技术进行改进和扩展,提出了EMSYN采样技术。实验验证了使用最大间隔准则分析上采样技术的有效性。 在算法层次上,处理不平衡数据集,用分类错误率度量标准是不合适的,ROC曲线下面积(AUC)则是一个有效的度量分类器性能的标准。本文研究以优化AUC为目标的线性模型在不平衡数据集上的性能并对原有模型进行了两处修改,提出扩展最大化AUC线性分类算器(EMALC)。实验表明提出的新方法对原有模型有显著的改进。