面向混合数据的半监督特征选择模型与算法研究
作者单位:华东交通大学
学位级别:硕士
导师姓名:舒文豪
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:部分标记混合数据 粗糙集 特征选择 集成选择器 粒度球
摘 要:随着互联网技术的高速发展,实际应用中存在海量、高维和及其复杂的数据。这个就会造成数据“维度灾难问题的出现,影响后续机器学习算法的性能。特征选择是数据挖掘中一种有效的数据预处理技术,目的是删除高维数据集中的冗余和不相关特征,保留数据中重要的特征,以降低数据集的维度,提高数据的紧密性和分类性能。粗糙集理论作为粒计算的一种重要数学工具,已成为计算机智能、数据挖掘和模式识别等领域的重点研究内容。在现实世界的应用中,数据通常是混合的,包括数值型数据、缺失型数据和符号型数据。同时,由于数据决策需要花费大量的人工成本。对其进行类别标记是昂贵且不可行的,因此,针对部分标记混合数据进行特征降维受到了当前学者的广泛关注。然而,现有基于粗糙集理论的特征选择算法在选择候选特征过程中,需要耗费大量的计算时间,而且决策标记的缺失也影响着特征选择结果的分类性能。为了解决上述特征选择过程中的问题,本文基于粗糙集理论,进行了对部分标记混合数据中的半监督特征选择和提高特征选择的过程中的时间效率方面研究。本文主要研究工作如下:(1)针对部分标记混合数据,为了充分利用全部未标记数据信息来提高分类性能,结合了K近邻和标记传播算法有效地对未标记数据进行类别标记,从而提出了一种改进的基于K近邻的标记传播算法。在此基础上,为了从部分标记的混合数据中选择重要的特征子集以提高分类性能,提出了一种基于依赖度、信息熵和信息粒度的特征多准则度量来综合选择候选特征。进而提出了基于多准则度量的启发式特征选择算法,以此获取部分标记混合数据的特征子集。通过真实数据集的实验对比结果表明,所提出的算法对比其它特征选择的算法在分类精度上有一定的提高。(2)针对部分标记混合数据,为了加速特征选择的过程,提出了一种基于加速邻域区分度的半监督特征选择算法。首先,生成基于纯度的粒度球集合,将数据集划分为更小部分的数据集。然后,提出邻域区分度来评估标记和未标记对象中候选特征的重要性。最后,设计了一种基于投票机制的集成特征选择算法,该算法能有效和公平地选出特征子集。通过真实数据集上的实验对比结果表明,本文所提出的特征选择算法在特征子集,分类精度和计算时间方面都优于其它特征选择算法。