基于邻域粗糙集和半监督学习的偏标记特征选择方法
作者单位:河北大学
学位级别:硕士
导师姓名:王硕
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:偏标记学习 半监督偏标记学习 邻域粗糙集 特征选择 主动学习 自训练
摘 要:偏标记学习是一类重要的弱监督学习框架,在该框架下,每个示例的输出为一个候选标记集合,其中只有一个真实标记。偏标记学习方法可以利用这种具有模糊标签信息的数据进行分类学习,有效降低了人工标注的要求。而半监督偏标记学习则可以处理偏标记和无标记样本同时存在的学习问题,充分利用偏标记样本隐含的弱监督信息和无标记样本的无监督信息,应用于更复杂的学习场景中。然而,不管是在偏标记学习还是半监督偏标记学习中,很多数据集具有高维的特点,其中不可避免的包含一些冗余特征,这些特征不仅会降低模型泛化能力,还会造成维数灾难问题。如何在弱监督学习框架下进行有效的特征选择是一个重要的研究问题。考虑到邻域粗糙集提供的属性约简方法可以在保持数据集分类能力的情况下有效去除冗余信息,本文将其结合偏标记和半监督偏标记这两个学习问题,去除冗余特征,实现有效的数据的降维。具体来说,本文主要工作如下: (1)基于邻域粗糙集框架提出一种针对偏标记数据的特征选择方法,构建了偏标记邻域决策系统,并定义偏标记学习问题中邻域粗糙集的下近似和依赖度,进而建立适用于偏标记分类问题的特征选择算法。该算法能够在对特征空间进行邻域粒化的同时度量候选标记集合中标记间的相似程度,选出与标记信息相关性较强的特征子集。另外,还使用了两种不同于随机方法的假阳性候选标记生成机制,在实验部分对不同偏标记生成机制也进行了分析和对比。最后给出了在6个真实偏标记数据和6个受控UCI数据集上的大量实验对比结果,验证了所提特征选择方法的有效性。 (2)针对包含少量偏标记样本和大量无标记样本的半监督偏标记数据集,结合邻域粗糙集、自训练和主动学习方法,提出一种基于消歧的特征选择方法。在该算法框架中,训练集的扩充消歧和属性约简操作被先后执行。首先,采用主动学习和自训练交替迭代的方式为无标记样本添加伪标记,在提高标记准确率的同时降低标注成本;其次,对扩充后的偏标记样本集进行消歧,得到半监督数据集;然后,基于邻域粗糙集概念,通过融合属性依赖度和邻域关系的组合度量来评估属性的重要度。最后,将5个真实偏标记数据集和4个受控UCI数据集依照不同标记样本比例生成半监督偏标记数据集并进行大量实验,分别使用多种代表性特征选择方法对数据集执行降维,通过半监督偏标记分类器的分类结果对比表明,所提特征选择算法可以有效去除数据集中的冗余特征并提高模型学习性能。