咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >类别不平衡数据集分类算法研究及应用 收藏
类别不平衡数据集分类算法研究及应用

类别不平衡数据集分类算法研究及应用

作     者:朱深 

作者单位:江南大学 

学位级别:硕士

导师姓名:徐华;成强生

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:不平衡分类 集成学习 网络入侵检测 深度学习 

摘      要:随着大数据时代的到来,数据分类问题在人工智能领域中成为了一个极为重要的研究方向。然而,数据集中不同类别样本数量分布不平衡的情况却经常出现,这使得传统的分类算法容易出现偏差。因此,针对不平衡分类问题的研究已经成为了学术界和工业界的热点之一。本文旨在研究解决类别不平衡数据集分类问题,并提出了两个算法。第一个算法是RUCSMOTE(Random Under-sampling Clustered Synthetic Minority Over-sampling TEchnique),它将随机欠采样和SMOTE改进算法相结合,用于解决不平衡分类问题。RUCSMOTE算法综合了聚类算法和欠采样算法的优点,既可以减少过拟合的风险,又可以在欠采样的过程中保留多数类信息。实验结果表明,RUCSMOTE算法在多个数据集上显著提升了AUC和GM值,表明其有效性和性能优势。第二个算法是CBA-VAE(Class-Balanced Bagging with VAE),专门用于解决不平衡多分类问题。该算法在数据层面和算法层面进行了改进。在数据层面,采用过采样技术平衡数据集,并使用Bagging方法进行数据随机抽样,以增加多数类样本的多样性。在算法层面,通过引入变分自编码器进行降维,能够学习到数据的潜在表示,提取有效的特征,并减少数据的维度。实验结果表明,该算法在不平衡多分类问题上获得较高的AUC和GM值,并表现出良好的鲁棒性。基于RUCSMOTE算法,本论文还将深度学习模型应用于解决类别不平衡问题。在标准NSL-KDD数据集上,使用AUC、GM、Recall和F1值等指标对模型进行评估。实验结果表明,在二值分类中,该方法显著提高了网络入侵检测系统的性能,达到了98.3%的AUC值。在多类分类中,达到了95.5%的AUC值,表明其在处理类别不平衡问题上的优越性和改进效果。综上所述,本文提出的数据采样方法和基于集成学习的算法可以有效地解决不平衡分类问题,提高分类算法的准确性和鲁棒性,具有重要的实际应用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分