咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >非平稳环境下数据流集成分类算法研究 收藏
非平稳环境下数据流集成分类算法研究

非平稳环境下数据流集成分类算法研究

作     者:莫皓凯 

作者单位:湖南大学 

学位级别:硕士

导师姓名:曹智;王治国

授予年度:2019年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:数据流 概念漂移 集成分类器 非平稳环境 

摘      要:在一些实际应用中随着时间不断产生的数据可以看作是非平稳环境下的数据流,即数据的分布是演变的,数据流中的这一现象又被称为概念漂移。研究中通常采用集成分类算法对数据流进行分类,因为在处理数据过程中所构建的集成分类器自身的模块化结构能够很好的应对数据流中数据分布的变化。在构建集成分类器时通常有两种方式对数据进行处理,一种是使用在线学习方式对数据逐个处理,另一种是将数据划分成相同大小的数据块,以数据块为单位进行处理。基于这两种方式本文分别提出了ROAUE(Recalling Online Accuracy Updated Ensemble)算法和MAUE(Memorizing Based Accuracy Updated Ensemble)算法。ROAUE算法是一种结合过去知识更新所构建的集成分类器的在线集成分类算法,在对数据逐个处理的过程中每隔一个窗口大小会将在最近窗口上的数据训练出来的新分类器加入到集成分类器中,当集成分类器中基分类器的个数达到所设置的上限值时,会选择一个基分类器被新训练出来的分类器替换,在选择基分类器被替换时不仅考虑每个基分类器当前时刻的权重值,还通过存储有限个过去时刻的权重值采用sigmoid函数加权计算出当前它所包含过去知识的大小,再结合这两个数值来选择基分类器被替换。通过这种方式使得在选择基分类器被替换时更能综合的评价各个基分类器的性能,在实验中通过在不同的数据流数据集上和其它4个具有代表性的在线集成分类算法进行对比,验证了ROAUE算法在处理数据流时能更好的应对数据中的扰动,并且进一步提高了分类的准确度。MAUE算法是一种利用遗忘机制更新所构建的集成分类器的集成分类算法,它以数据块为单位来构建集成分类器,每处理一个数据块数据会将在这个数据块上新训练出来的分类器加入到集成分类器中,并计算出各个基分类器在当前数据块上的权重值,根据权重值的大小选择一定比例的基分类器通过采用Ebbinghaus遗忘曲线来更新它们各自的计算记忆强度值参数。当集成分类器中基分类器的个数达到所设置的上限值时,会选择当前记忆强度值最低的基分类器被新训练出来的分类器替换。最后在实验中通过在不同数据流数据集上和其他4个具有代表性的分类算法进行对比,实验结果表明MAUE算法能进一步提高分类的准确度,并且在处理快速突变重现型概念漂移时具有明显的优势。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分