咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >正态分布离散化与JS散度在决策树中的应用 收藏
正态分布离散化与JS散度在决策树中的应用

正态分布离散化与JS散度在决策树中的应用

作     者:陈建美 

作者单位:南宁师范大学 

学位级别:硕士

导师姓名:钟智

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:决策树 信息增益 基尼系数 JS散度 特征选择策略 

摘      要:决策树方法是建立在信息论基础之上的数据分类挖掘方法,被广泛用于解决分类问题。其基本思想是,通过决策规则对一批已知的训练数据建立一棵树,然后利用建好的树,对数据进行预测。至今己经有很多决策树算法被提出,通过决策方法,分析已知的分类信息生成一个预测模型。在大多数有决策树模型中,使用的决策规则有信息增益、信息增益率、基尼系数、中值、平均值等,这些决策规则都以数据特征之间相互独立的假设为基础,为此本文提出了考虑特征之间的相互作用的特征选择方法。本文涉及的主要内容以及创新点如下:目前出现的多种决策树无法直接使用连续型数据。但现有的大多连续数据离散化算法中,都是建立在数据集中不存在离群值、噪声数据等异常样本,离散化算法不受异常数据影响的假设上。但决策树分类器的分类准确率却真实地受到中离群数据的影响,为了减轻噪声数据的影响,本文利用了正态分布对连续数据进行离散化,从中区分离群值,生成更显著的离散型数据,以此提高模型的分类率。具体来说就是根据正态分布,把样本进行等距离散化,以此达到降低噪音样本影响的效果,也为后续的Jensen-Shannon散度决策树算法奠定了优良数据集基础。除此之外,本文把经过正态离散化的数据与等距离散化、等频离散化、二值化方法离散化数据,分别朴素贝叶斯、支持向量机、ID3和CART决策树上进行了对比,获得更高的分类精度,在这种情况下,所提出的离散化方法对噪声点具有很强的鲁棒性。决策树通过在分类过程中利用实例的特征值进行建模从而实现对实例的分类。特征选择策略是决策树算法中的关键部分。以往的决策树其特征选择策略都是建立在特征之间相互独立的基础上,是基于贪心搜索策略来实现树的生长,通常会导致次优解。本文提出了一种新的特征选择方法--JS散度特征选择法,用此方法生成的决策树称为-JS散度决策树(JSDT)。该方法采用JS散度矩阵中的数值作为选择特征的新度量,确定决策树生长过程中的最优分裂特征集。使用这种特殊的特征选择策略的目的是双重的,(a)通过从原始数据集的特征出发,决策树将能够避免花很长时间在第一个大的焦点上寻找一个有用的分类特征,(b)决策树的生成过程比一般的穷尽法期望更快更有效地找到分类的有用特征。JSDT在13个数据集上进行了实验分析,与ID3、C4.5和CART等传统决策树分类器进行了比较,发现新方法在含有相互作用的数据集上的性能比传统的模型好。实验结果表明JSDT能够有效地找到具有相互作用的特征,并且代价比传统方法小。综上所述,针对数据特征之间的相互作用在决策树生成规则中被忽视的问题,本文创新地提出用JS散度矩阵表达特征之间的相互作用,对数据进行分类任务。本文通过对比多种经典的决策树分类算法,在多个现实的数据集上进行了大量的实验。采用分类准确度(Accuracy),召回率(Recall)等指标来评估算法的性能,证明了所提出算法在大多数情况下都能带来优异的结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分