咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进的CURE聚类的原型选择算法及其应用研究 收藏
基于改进的CURE聚类的原型选择算法及其应用研究

基于改进的CURE聚类的原型选择算法及其应用研究

作     者:孙元元 

作者单位:西安理工大学 

学位级别:硕士

导师姓名:张德生

授予年度:2019年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:K最近邻分类器 原型选择 CURE聚类算法 代表点 不平衡数据集 

摘      要:在大数据时代,如何从海量数据集中挖掘出有用的知识已经成为各个领域都关注的一个重要问题。针对K最近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,本文采用CURE聚类方法进行原型选择,即通过CURE聚类算法挑选代表样例进行K最近邻分类且不降低其分类准确率,最后应用于不平衡数据集中。本文具体研究内容和研究结果如下:1.改进了基于共享最近邻密度和最大最小距离的CURE聚类算法。针对CURE聚类算法存在的两个缺点:第一,噪声点的不易确定,提出了一种新的基于共享最近邻密度的去噪方法,该方法利用共享最近邻算法计算样例的相似度,进而求出每个样例的密度值,自适应得到密度阈值,判断噪声点进行剔除;第二,代表点分散性差,本文使用最大最小距离算法对原算法挑选代表点进行改进。将本文改进算法与传统的CURE算法、文献[72]算法、RTCURE算法在2个合成数据集和6个UCI数据集进行对比,结果表明:本文算法在平均准确率和运行效率上都有一定的提高。2.提出了基于改进的CURE聚类的原型选择算法(PSCURE)。根据第一部分改进的CURE聚类算法对原始数据集进行聚类,从每个类中挑选出更具有代表性的样例添加到最终的原型子集再进行分类。首先利用PSCURE算法对合成数据集Pathbased和Flame people进行实验,结果表明:PSCURE算法可以选取出更具有代表性的边界点和部分内部点。其次,将PSCURE算法与传统的KNN、PSC算法和CNN、ENN、TRKNN、BNNT、2NMST算法在10个UCI数据集上进行实验,结果表明:PSCURE算法与传统的KNN算法有相同甚至更高的分类准确率,且能筛选出更少的样例,PSCURE算法与最新的几个算法相比不仅提高了平均准确率,而且减少了样例数。3.利用PSCURE算法处理不平衡数据集。首先,使用PSCURE算法对不平衡数据集中的大多数样例进行欠抽样,使抽取的样例数与少数类的个数一样,从而得到均衡的原型集,再利用KNN算法进行分类。然后,通过5个UCI数据集进行实验,将PSCURE算法与KNN、EDSVM和ND-SVM算法进行对比分析,实验结果表明:PSCURE算法在F-measure和G-means两个指标上较其它算法有所提高。最后,将PSCURE算法应用到某市窃电用户数据集中,并与传统的KNN算法对比,实验结果表明:PSCURE算法在解决处理窃电用户数据集中具有一定的优势。

读者评论 与其他读者分享你的观点