面向MapReduce的迭代式数据均衡分区策略
An Iterative Data Partitioning Strategy for MapReduce作者机构:浙江工业大学计算机科学与技术学院
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2019年第42卷第8期
页 面:1873-1885页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61379017) 浙江省公益技术项目(2017C31014) 计算机体系结构国家重点实验室开发课题(CARCH201804)资助
主 题:MapReduce 大数据 数据倾斜 迭代式数据分区 微分区 均衡分区
摘 要:MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%.