基于无监督智能欠采样方法的不平衡数据分类算法研究
作者单位:兰州大学
学位级别:硕士
导师姓名:陈进源
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:机器学习 分类 不平衡数据 重采样技术 无监督学习 集成学习
摘 要:信息化技术的飞速发展,催生了一个大规模生产、共享和应用数据的时代,而挖掘数据价值、征服数据海洋的基石则是机器学习。其中分类问题是该领域最核心的问题之一,一般的分类算法都有一个默认的前提假设,即不同类别的实例数目相当且错分代价也相当。然而在实际场景中,许多数据都呈现出类别高度不平衡的特性:某一类别的样例数目远大于其他类别,这使得一般分类学习方法很难取得良好的分类效果。为了更好的改善不平衡数据的分类性能,界内很多知名人士对此做了大量地分析与研究。目前这些研究大致可以归结为三个层面:一是在建立模型之前对数据进行重构,主要是采用重采样技术来缩减类别之间的不平衡程度,如欠采样和过采样;二是改进分类学习算法,以适应不平衡数据所特有的差异性,如不同类别样例学习时使用不同的权重以及对多类样例引入扰动等;三是把重采样技术与算法改进相结合。本文针对不平衡数据集的特殊性,提出了一种基于无监督学习的新的智能欠采样方法并引入了集成学习框架,可以较好地解决不平衡数据分类问题。本文主要做了以下几方面的工作:1.探究分析:首先分析了传统分类算法面对不平衡数据失效的原因,并探究现有方法及技术的原理及思想,找出其仍旧存在的一些问题。2.数据重构:受灰色系统理论的启示,针对以往重采样技术中存在的问题,提出了一种新的欠采样方法,通过kNN来寻找样例内部规律,并不断地剔除冗余样例,保留具有代表性的样例,直至不同类别样例的数目相当。3.算法集成:对比分析常用分类学习方法的一些特点及性能,整合了Bagging与SVM分类算法并对重构之后的数据进行分类学习。4.多类分类:分析研究多分类问题常用的一些处理机制与方法,并将本文所提出的方法扩展到了多类不平衡数据集分类的问题当中。