咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于特征选择的数据降维 收藏
基于特征选择的数据降维

基于特征选择的数据降维

作     者:温学平 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:王湘君

授予年度:2015年

学科分类:0202[经济学-应用经济学] 02[经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 

主      题:特征选择 互信息 最大相关-最小冗余 监督学习 非监督学习 聚类 

摘      要:特征选择是数据降维中最常用的手段,与之相对应的是特征生成,二者共同构成数据降维的两种主要方式。数据降维是应用统计、数据挖掘、机器学习、模式识别等领域中及其关键的问题。特征选择有利于降低数据处理的时间复杂度和计算机存储的空间复杂度,还可以提高学习模型的准确性、鲁棒性以及泛化能力。本文从监督学习和非监督学习两个方面对特征选择算法进行分类和描述,主要利用信息论中关键概念互信息设计特征选择算法。本文的主要内容包括:(1)在监督学习的特征选择中,利用互信息作为工具,讲述了Parzen Window特征选择以及最大相关-最小冗余(MRMR)特征选择算法。(2)在非监督学习的特征选择中,我们利用邻域互信息作为特征间的相似性度量,新设计了一种,基于特征聚类的特征选择算法。且该算法可直接处理混合数据(同时含有连续型特征和种类特征),而不需要做种类数据的数值化,也不需要做连续数据的离散化处理。(3)将邻域互信息应用于Parzen Window和MRMR特征选择,解决基于监督学习混合数据的特征选择。(4)利用UCI机器学习网页上的数据集对算法进行测试和比较,并应用特征选择算法分析来自中国统计年鉴2013上有关各地区经济实力的数据集。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分