基于Spark Streaming的在线多数投票提升算法研究
作者机构:河南大学计算机与信息工程学院河南开封475000
出 版 物:《福建电脑》 (Journal of Fujian Computer)
年 卷 期:2018年第34卷第7期
页 面:105-107,115页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:在大数据时代,如何提升数据挖掘算法的运行效率是解决大数据挖掘的关键问题。Online BBM算法虽然具有较好的分类效果,但该算法无法实时处理数据流,且处理海量数据效率较慢。本文基于Spark Streaming提出了一种实时处理大数据量的分布式数据流处理算法***。本文使用4个较大数据集从分类准确率和运行效率两个方面进行了实验分析,实验结果证明了在分类准确率满足一定误差的情况下,***的运行效率高于Online BBM。