咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于邻域一致性的高维小样本特征选择算法研究 收藏
基于邻域一致性的高维小样本特征选择算法研究

基于邻域一致性的高维小样本特征选择算法研究

作     者:曾海亮 

作者单位:闽南师范大学 

学位级别:硕士

导师姓名:林耀进

授予年度:2020年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:特征选择 邻域一致性 高维小样本 类别不平衡 

摘      要:随着大数据技术的蓬勃发展,面向语义分析、图像识别和基因选择的应用得到广泛普及,这些领域的数据呈现出高维小样本特点,即特征空间高维度,而样本数量过少。高维小样本数据存在着特征维数与样本数量不协调和类别分布偏斜等问题,作为应用驱动的本质特征,面向高维小样本的分类学习面临着计算低效、预测精度不高、无法识别小类样本,以及模型过拟合、稳定性欠佳、存储开销大等诸多挑战。为了充分挖掘高维小样本数据的应用价值,基于高维小样本数据的知识发现成为备受关注的研究热点。特征选择通过删除数据特征空间中与标记无关的特征、噪声特征或冗余特征,以此来对数据的特征空间进行降维。本文以高维小样本数据为研究对象,围绕高维小样本数据特征选择存在的挑战性问题,重点关注真实场景中不同的应用需求,展开对监督学习模式下的高维小样本数据特征选择算法的研究。主要研究内容包括:(1)针对由特征高维性与样本数量不协调带来的问题,提出基于子空间学习的高维小样本数据特征选择算法。首先,利用特征扰动策略,定义基准特征和基准特征空间,构建具有差异性的多个特征子空间。其次,提出基于子空间学习的高维小样本数据特征选择算法。最后,选取八个数据集与七个算法进行对比分析,实验结果表明所提算法的有效性。(2)针对由类别分布失衡带来的问题,提出利用一致性分析的高维类别不平衡数据特征选择算法。首先,通过融合类别信息来定义样本分布与标记的一致性。其次,设计基于特征重要度的前向贪婪搜索特征选择算法。最后,在十二个数据集上与七个特征选择算法的实验对比分析结果表明,该算法能显著提高小类预测精度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分