基于数据分布的标签噪声过滤
Label noise filtering based on the data distribution作者机构:山西大学计算机与信息技术学院太原030006 山西大学计算智能与中文信息处理教育部重点实验室太原030006
出 版 物:《清华大学学报(自然科学版)》 (Journal of Tsinghua University(Science and Technology))
年 卷 期:2019年第59卷第4期
页 面:262-269页
核心收录:
学科分类:0810[工学-信息与通信工程] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0805[工学-材料科学与工程(可授工学、理学学位)] 0835[工学-软件工程] 0701[理学-数学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(61673249) 山西省回国留学人员科研基金资助项目(2016-004) 赛尔网络下一代互联网技术创新项目(NGII20170601)
摘 要:在监督学习中,标签噪声对模型建立有较大的影响。目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法存在过滤效果差或者过滤效率低等问题。针对该问题,该文提出一种基于数据分布的标签噪声过滤方法。首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,该方法从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;此外,使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率。在15个UCI标准多分类数据集上的实验结果表明:该方法在噪声低于30%时,噪声检测效率和分类精度均有很好的表现。