咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Spark框架下利用分布式NBC的大数据文本分类方法 收藏

Spark框架下利用分布式NBC的大数据文本分类方法

Text classification of big data using distributed NBC under Spark framework

作     者:臧艳辉 赵雪章 席运江 Zang Yanhui;Zhao Xuezhang;Xi Yunjiang

作者机构:佛山职业技术学院广东佛山528137 华南理工大学广州510641 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2019年第36卷第12期

页      面:3705-3708,3712页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(71371077) 佛山市科技计划项目(2015AB004241) 

主  题:文本分类 MapReduce Spark框架 分布式 朴素贝叶斯分类器 机器学习 

摘      要:针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分