咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >MapReduce模型在Hadoop实现中计算资源利用率分析... 收藏
MapReduce模型在Hadoop实现中计算资源利用率分析和多作业批调度...

MapReduce模型在Hadoop实现中计算资源利用率分析和多作业批调度优化

作     者:于晓龙 

作者单位:山东大学 

学位级别:硕士

导师姓名:李巍

授予年度:2016年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:MapReduce 分析模型 工作负载 系统利用率 调度算法 

摘      要:近年来,随着互联网技术的飞速发展,物联网、社交网络、智能携带设备等新业务的迅速兴起积累了海量规模的数据,这些大数据与云计算之间的关系越来越密切。如何处理这些规模巨大的数据是一个亟待解决的问题。目前MapReduce是比较流行的处理大数据的编程框架。Hadoop是实现MapReduce编程模型的Java开源版本,得到了工业界和学术界普遍关注。用户在使用Hadoop处理大数据时,往往把关注的焦点放在加速数据的处理速度,然而对于集群系统本身来说,更应该看重的是系统计算资源利用率。本论文将权衡这两个目标,在国内外对MapReduce编程模型研究的基础上,对MapReduce编程模型建立队列分析模型,进行计算资源利用率分析,并提出了针对不同优先级的动态多作业批调度改进算法,为更高效地处理大数据提供理论基础和算法支持。本论文的主要工作有两个:在MapReduce编程模型的Map阶段和Reduce阶段分别采用不同的排队模型来建立分析模型,进行MapReduce系统的性能分析。可以得到如何通过调节系统参数,如工作负载,来减少Reduce阶段计算资源的粘槽现象,从而提升集群系统的利用率。通过仿真实验,MapReduce分析模型的理论分析与仿真实验结果相吻合,说明本论文所建立的队列分析模型能较好地描述MapReduce系统特点。给出合适的系统参数,即集群系统工作负载,提升系统性能。在Hadoop默认的FIFO调度策略的基础上,创新性地提出了针对不同优先级的动态多作业批调度改进算法。从减少调度队列中作业的整体完成时间和集群系统空闲时间的角度,给出合理的作业执行顺序,替代FIFO执行顺序,设计并实现了仿真实验。结果表明,与FIFO调度策略相比,采用多作业批调度改进算法调度能有效的减少作业整体完成时间,以及减少计算资源的空闲时间,提高集群系统计算资源的利用率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分