基于Fisher score与模糊邻域粗糙集的多标记特征选择
作者单位:河南师范大学
学位级别:硕士
导师姓名:孙林
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:多标记特征选择 Fisher score模型 多标记邻域粗糙集 模糊邻域粗糙集 模糊邻域熵 邻域直觉模糊熵
摘 要:大数据时代数据具有形式复杂和语义丰富的特点,然而丰富多样的语义信息需要高维的特征来表述,因而多标记学习面临着维度灾难的问题。特征选择是实现多标记数据降维的有效手段之一,目前已取得了显著成果。但是,很多Fisher score模型未充分考虑特征与标记以及标记之间的相关性;部分边缘样本的存在会影响模型的分类效果;同时涉及到的模糊邻域粗糙集及其扩展模型在多标记特征选择的研究仍需深入探讨。因此,针对多标记学习面临的高维问题,本文改进了Fisher score模型来预处理多标记数据,在多标记邻域决策系统中,基于模糊集理论和粗糙集理论,拓展了模糊邻域粗糙集和直觉模糊集,构建了三种基于Fisher score与模糊邻域粗糙集的多标记特征选择方法,通过理论分析与实验对比,验证了所提算法的有效性。其研究内容包括:(1)针对Fisher score模型未充分考虑特征与标记以及标记之间的相关性,以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性,导致算法分类性能偏低的问题,提出了一种基于Fisher score与模糊邻域熵的多标记特征选择方法。首先,利用最大信息系数构建了特征与标记关系矩阵,基于修正余弦相似度定义了标记关系矩阵,并给出了二阶策略,建立了基于二阶标记相关性的多标记Fisher score模型。然后,引入多标记分类间隔,定义了自适应邻域半径和邻域类,提出了多标记粗糙隶属度函数,并构建多标记模糊邻域粗糙集模型,由此定义了多标记模糊邻域熵。最后,构建了基于Fisher score与模糊邻域熵的多标记特征选择算法。在多标记K近邻分类器下的11个数据集上进行测试,实验结果表明所提算法能够选择较少的特征子集并取得较高的分类精度。(2)针对多标记Fisher score模型因为边缘样本影响算法效果,以及直觉模糊熵在多标记特征选择领域研究欠缺的问题,提出了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据标记将多标记论域进行划分,将特征均值作为原始中心点,以最远样本的距离结合距离系数去除边缘样本集合,定义了新的有效样本集合,计算中心偏移后的每个特征的得分,进而提出了基于中心偏移的Fisher score模型。然后,引入多标记分类间隔作为自适应模糊邻域半径,定义了模糊邻域相似关系,并构造了多标记邻域粗糙直觉隶属度函数和非隶属度函数,由此定义了多标记邻域直觉模糊熵。最后,设计了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择算法。在多标记K近邻分类器下,9个多标记数据集上的实验结果表明,所提算法选择的最优子集具有良好地分类性能。(3)针对多标记Fisher score特征选择模型进行中心偏移时忽略标记之间的相关性的问题,以及为了继续扩展直觉模糊熵模型在多标记邻域的研究,提出了一种基于标记相关性的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据二阶策略对多标记论域重新进行划分;将特征下标记组样本的均值作为中心,以最远距离结合距离系数来筛选新的样本,得到了中心偏移后的每个特征的得分,进而构建了基于标记相关性和中心偏移的Fisher score模型。然后,定义了自适应邻域半径,提出了多标记邻域粗糙直觉隶属函数和非隶属函数,构造了多标记邻域直觉模糊熵。最后,构建了一种基于标记相关性的Fisher score与邻域直觉模糊熵的多标记特征选择算法。在多标记K近邻分类器下,17个多标记数据集的实验结果显示,所提算法较对比算法有出色的表现。