咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于不确定性的元学习和半监督分类 收藏
基于不确定性的元学习和半监督分类

基于不确定性的元学习和半监督分类

作     者:郭劼 

作者单位:河北大学 

学位级别:硕士

导师姓名:李艳

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:不确定性 算法选择 元学习 元特征 半监督分类 样本选择 

摘      要:当面对一个分类问题时,如何从众多的可用算法中选择当下问题最适合的算法是一个具有挑战性的问题。相关研究表明分类算法的表现强烈依赖于数据本身的特性,因此人们相信更好地理解数据集对分类算法的研究发展至关重要。元学习将算法选择作为一项学习任务来解决,试图学习元特征和最佳算法之间的映射,而其核心问题在于元特征的构建,即定义哪些数据特征对算法选择最有价值。目前大部分的方法中只考虑了简单特征和统计特征,无法很好地衡量问题的分类难度。本文拟将数据本身和模型不确定性的多种度量作为一类关键的元特征引入到元学习过程,建立以不确定性为核心的元特征体系,进而分析不确定性对元学习器性能的影响,并在此基础上建立算法选择模型,为后续的算法选择提供指导。另一方面研究了数据集和模型输出等多种不确定性对于半监督学习模型性能的影响,提出了基于不确定性样本选择的半监督学习机制,适用于包含大量无标记样本且人工标注代价高的分类问题。具体工作如下:针对目前算法选择所用到的元特征大部分是数据统计特征的问题,指出不确定性是一类重要的元特征,并进行了元学习的不确定性特征体系的建立。根据数据的不一致性、边界的复杂性、模型输出的模糊性、属性重叠度、以及特征空间的模糊性,定义了六种数据本身或学习模型的不确定性元特征,可以从不同角度衡量学习问题本身的不确定性大小。在大量分类问题的人工数据和真实数据集上分析了这些元特征之间以及和分类精度的相关性。在此基础上,在110个真实数据集上以这些不确定性作为元特征构建了元数据集,通过元分类算法实现算法选择,所推荐的结果达到了较高的准确度。另一方面,研究了基于不确定性样本选择的半监督学习机制,并比较分析不同的度量对半监督学习模型的影响。结合了主动学习的样本选择思想,所定义的不确定性度量和分类器结果选择含有最多信息的不确定性低的无标记样本,通过图标记的方式对选出的样本生成伪标记,并将其加入到标记样本集训练分类器。该方法能够有效地选取有价值的未标记数据来更好地训练模型,适用于人工标注代价高的问题,大量实验结果说明了所提方法可以有效提高半监督分类问题的分类精度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分