改进的Fisher Score和超启发差分进化的特征选择方法研究
作者单位:辽宁工程技术大学
学位级别:硕士
导师姓名:郭嗣琮
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:Fisher Score 特征选择 类间散度 超启发式 过滤式 差分进化
摘 要:数据伴随着人们的生产生活不断涌现,数据量在不断升级,产生的领域也越来越广,且维度也越来越高,这对分析这些数据的有效方法提出了前所未有的挑战,由此产生了“维数诅咒的概念,特征选择是解决维数问题的有效方法,特征选择开始展现出越来越重要的作用是在上世纪90年代后,各种特征选择方法开始涌现,许多新的方法、新的思路层出不穷,对数据降维技术的发展起到了关键的作用。由Fisher判别演化的Fisher Score是一种计算简单、快捷的特征选择算法,在人脸识别等很多领域表现突出。本文对Fisher Score进行了改进,首先是考虑到了传统Fisher Score在公式上无法完全度量出类间差异,加入考虑不同分布数据特点的思想,其次是在系数上做了调整,使得系数考虑了两类之间的重叠关系,之后又用最大互信息系数做了修正,最后在特征维数较少和较多的两类数据上进行了对比实验,参与比较的包括另外5种过滤准则和原始特征集,实验结果表明所提改进的有效性,即改进的Fisher Score对特征具有更好的辨识力,可以将对分类器来说更重要的特征度量出来。然而,这种过滤式的单变量特征选择方法具有一定的限制,即无法度量特征之间的冗余,同时也会将虽然得分很低却可能对分类很重要的特征排除,于是,本文从特征选择的本质——特征子集的寻优出发,引入了超启发式的搜索方法,将差分进化算法作为高层的启发式指导,设计度量当前特征子集的冗余性的适应度函数进行反馈,对低层设计的10种启发式策略进行选择,由于算法具有回溯性而使得每一次的迭代都考虑了特征的冗余性,最后在14个数据集上进行了对比实验,实验结果验证了超启发式差分进化特征选择算法具有很好的泛化性能,同时,由于高层的启发指导使得低层的启发策略具备了方向性,而在一定程度上减少了启发搜索的随机性。