基于互信息的过滤式特征选择算法研究-南通市图书馆

文献详情 >基于互信息的过滤式特征选择算法研究收藏

基于互信息的过滤式特征选择算法研究

作者单位：吉林大学

学位级别：硕士

导师姓名：李占山

授予年度：2022年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：特征选择互信息熵权法最大互信息系数过滤式

摘要：随着信息和智能化时代的到来,在机器学习、模式识别等领域中,人们所研究的数据的维度越来越大,比如各种RNA测序数据集,其数据维度往往多达万数,易引发“维度灾难“过拟合等问题,从而降低机器学习分类器的综合性能。基于上述问题,人们对特征选择展开了研究。特征选择,顾名思义是指从原始特征空间中遴选“好的特征,剔除“不好的特征,“好的特征指对分类任务的完成具有实际意义的特征即相关特征,反之,“不好的特征即指冗余特征和不相关特征。特征选择是优化机器学习算法性能的一个经典方式,也是模式识别中重要的数据预处理步骤。过滤式特征选择是一种较为传统的特征选择路线,其核心思路是通过某种过滤式准则对特征(子集)进行评价和“过滤,择优去劣。其中互信息是一种基于信息熵理论来度量两个随机变量间的相关性的准则,不同于普通的相似性度量方法,互信息可以捕捉到变量间非线性的统计相关性,因而可以认为其能较大程度地度量和反映变量之间真实的依赖性,因此基于互信息的特征选择一直是人们研究的一个热点方向。然而当前的基于互信息的过滤式特征选择算法,往往仅仅局限于互信息这一度量标准,这在一定程度上具有局限性,比如很难准确计算出来连续型随机变量间的互信息等。为规避互信息的局限性,本文做出了三点改进。第一点是引入了RReliefF算法来度量特征与标签的相关性。RReliefF算法是一种较为经典且高效的特征评价算法,该算法基于几何距离度量特征,即通过度量某一特征对标签的区分能力来为特征进行评分。基于回归任务和分类任务的同一性,本文适应性地将回归任务中的特征评价算法RReliefF用于分类任务,度量特征与标签的相关性。第二点是引入最大互信息系数(Maximal Information Coefficient,MIC)度量特征与标签的相关性、特征与特征之间的冗余性。MIC是一种优秀的互信息变形,它利用了归一化互信息,具有普适性、均衡性的优良特性。为了能相对准确而高效的评价特征,本文摈弃了引入更复杂的互信息形式的思路,转而应用普适性和鲁棒性较好的最大互信息系数MIC度量特征与标签的相关性、特征与特征之间的冗余性。第三点是在度量特征与标签的相关性时,应用熵权法为RReliefF和MIC进行客观赋权。熵权法(Entropy Weight Method)是一种基于信息熵理论的客观赋权方法,其原理是指标的变异程度越小,所隐含的信息量越少,其相应的权重也越低,熵权法赋权具有更高的可解释性和客观性。应用熵权法赋权可以充分结合RReliefF和MIC的各自优势,使得度量结果更精确。基于上述改进,本文提出了基于熵权法的过滤式特征选择算法(Filtering Feature Selection algorithm based on Entropy Weight Method,FFSBEWM)。为了验证FFSBEWM算法的效果,本文在13个经典的数据集上进行了实验,并与9个相关的算法进行了对比分析。实验结果表明,本文所提算法选择出的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于互信息的过滤式特征选择算法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于互信息的过滤式特征选择算法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：