咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >几种分类问题的研究 收藏
几种分类问题的研究

几种分类问题的研究

作     者:林轩 

作者单位:吉林大学 

学位级别:硕士

导师姓名:韩燕

授予年度:2015年

学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 

主      题:分类问题 线性判别分析法 Logistic回归 费舍尔判别分析法 支持向量机 决策树 bagging 随机森林 

摘      要:本文着重部分常用线性回归方法与非线性方法关于分类问题的比较。关于线性方法,主要探讨普通线性回归模型的最小二乘法(OLS:ordinary least squares),线性判别分析(LDA:linear discriminant analysis)与logistic回归的效果的比较,同时尝试PCA与FDA两种降维方法,并将OLS与LDA结合降维后的数据进行分类效果的比较分析。OLS是最基本的线性模型,除了处理回归问题,也可以处理分类问题,只是此时的因变量不再是单一向量,而是变成了指示矩阵,即行表示观测,列表示分类,每行只在其所归属分类下为1,其余位置为0。对于线性分类问题,OLS一般都会有比较好的分类效率,然而当类别之间平行排布的话,OLS时常会忽视其中的某一分类,这是其非常严重的劣势所在。LDA与OLS一样对线性边界有很好的分类效率,并且避免了OLS关于平行类别的忽视问题,一般来讲较OLS的分类效率高一些。Logistic回归最初就是用来处0-1两个类别作为因变量的模型,其运用概率比的方式将本来只有两个取值的类别因变量变成在0-1之间的连续数值型变量,很好地解决了分类问题,此处将其拓展为对多于两个类别的分类问题的探索;由于其模型的特点,对分类问题常常都有很好的分类效率。关于非线性方法,主要探讨SVM(support vector machine), Tree,Bagging(Bootstrap aggregating),随机森林的效率。SVM通过对参数的调整使得其对于各种线型,高阶曲线型乃至放射型边界都有很好的适应性,是通用性很强的分类方法。单一决策树由于其将数据分块处理的机制,使得其对线性边界的分类问题产生很高的错误率,并且饱受高方差低准确率的困扰。Bagging通过随机产生大量决策树并将它们的判别结果“取均值的办法基本消除了单一决策树的高方差低准确率的缺点。随机森林则进一步通过强制选择随机选择变量的方法弥补了当某一变量在该分类问题起主导作用时候Bagging无法消除相关决策树的高方差的不足。最后本文选取“单个字母识别数据,采用以上方法构建分类模型并比较。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分