邻域信息修正的不完整数据多填充集成分类方法
Multiple Imputation-Revision Ensemble Classification with Neighborhood Information作者机构:安徽商贸职业技术学院信息与人工智能学院安徽芜湖241002 安徽大学计算机科学与技术学院合肥230601
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2023年第59卷第23期
页 面:125-135页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61872002,62272001) 安徽高校自然科学研究重点项目(KJ2021A1483,2022AH052740,2023AH052296)。
摘 要:不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。针对该问题,提出一种邻域信息修正不完整数据多填充集成分类方法。该方法通过嵌入修正填充模块来优化填充过程,利用纯度和邻域半径筛选出待修正填充的近邻数据样本,并根据这些近邻数据样本对缺失值进行修正填充,进一步提升填充精度。同时,融合了多种经典填充算法优势,利用多填充的数据多样性,通过引入集成学习提升分类精确度。实验结果表明,该方法对基准数据集上的缺失值填充效果、数据分类精确度都优于对比方法,同时在真实不完整数据集上也表现出更好的分类精确度。