基于互信息的过滤式特征选择算法研究
作者单位:吉林大学
学位级别:硕士
导师姓名:李占山
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着信息和智能化时代的到来,在机器学习、模式识别等领域中,人们所研究的数据的维度越来越大,比如各种RNA测序数据集,其数据维度往往多达万数,易引发“维度灾难“过拟合等问题,从而降低机器学习分类器的综合性能。基于上述问题,人们对特征选择展开了研究。特征选择,顾名思义是指从原始特征空间中遴选“好的特征,剔除“不好的特征,“好的特征指对分类任务的完成具有实际意义的特征即相关特征,反之,“不好的特征即指冗余特征和不相关特征。特征选择是优化机器学习算法性能的一个经典方式,也是模式识别中重要的数据预处理步骤。过滤式特征选择是一种较为传统的特征选择路线,其核心思路是通过某种过滤式准则对特征(子集)进行评价和“过滤,择优去劣。其中互信息是一种基于信息熵理论来度量两个随机变量间的相关性的准则,不同于普通的相似性度量方法,互信息可以捕捉到变量间非线性的统计相关性,因而可以认为其能较大程度地度量和反映变量之间真实的依赖性,因此基于互信息的特征选择一直是人们研究的一个热点方向。然而当前的基于互信息的过滤式特征选择算法,往往仅仅局限于互信息这一度量标准,这在一定程度上具有局限性,比如很难准确计算出来连续型随机变量间的互信息等。为规避互信息的局限性,本文做出了三点改进。第一点是引入了RReliefF算法来度量特征与标签的相关性。RReliefF算法是一种较为经典且高效的特征评价算法,该算法基于几何距离度量特征,即通过度量某一特征对标签的区分能力来为特征进行评分。基于回归任务和分类任务的同一性,本文适应性地将回归任务中的特征评价算法RReliefF用于分类任务,度量特征与标签的相关性。第二点是引入最大互信息系数(Maximal Information Coefficient,MIC)度量特征与标签的相关性、特征与特征之间的冗余性。MIC是一种优秀的互信息变形,它利用了归一化互信息,具有普适性、均衡性的优良特性。为了能相对准确而高效的评价特征,本文摈弃了引入更复杂的互信息形式的思路,转而应用普适性和鲁棒性较好的最大互信息系数MIC度量特征与标签的相关性、特征与特征之间的冗余性。第三点是在度量特征与标签的相关性时,应用熵权法为RReliefF和MIC进行客观赋权。熵权法(Entropy Weight Method)是一种基于信息熵理论的客观赋权方法,其原理是指标的变异程度越小,所隐含的信息量越少,其相应的权重也越低,熵权法赋权具有更高的可解释性和客观性。应用熵权法赋权可以充分结合RReliefF和MIC的各自优势,使得度量结果更精确。基于上述改进,本文提出了基于熵权法的过滤式特征选择算法(Filtering Feature Selection algorithm based on Entropy Weight Method,FFSBEWM)。为了验证FFSBEWM算法的效果,本文在13个经典的数据集上进行了实验,并与9个相关的算法进行了对比分析。实验结果表明,本文所提算法选择出的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法。