基于ZooKeeper的分布式处理框架的研究与实现
作者单位:北京邮电大学
学位级别:硕士
导师姓名:吴旭
授予年度:2014年
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:ZooKeeper 分布式处理框架 watch 链式
摘 要:如何对海量信息做高效的分析和有价值的处理从而最终提取出对用户有用的信息是一个亟待解决的问题。目前对海量数据的处理方法主要是采用分布式计算,然而目前主流的分布式计算方式都存在这样一个问题,他们并不是为了追求并行计算、提供高效快捷和灵活的计算方式而设计的,更多的是一个分布式文件系统,提供文件数据的存储和查询,它们的计算方式更有利于进行文件数据的查询。 本文设计实现了一个侧重于计算的分布式处理框架,采用一种管理链式的计算结构简化分布式计算,提供一种更高效的分布式计算方法。其中包括分布式计算系统和文件系统两部分。计算系统采用一种链式计算的方式来简化分布式计算,能够通俗易懂和深入地控制整个计算过程,对于存在多个环节的分布式计算,各个环节之间是串行关系,这时可以为每个环节设置一个管理节点,每个管理节点负责其相对应的环节,管理节点内部并行执行,多个管理节点之间串行执行,即下一个管理节点要等上一个管理节点执行完毕再执行,而每个管理节点下的计算节点则是并行执行任务的;文件系统为分布式计算提供必要的io支持,提供对集群内文件的基本操作。 通过实验证明,本处理框架在数据源已经分发好的情况下,使用自身提供的高速文件系统可以高效地处理大数据量的文件,通过实验对比,本计算框架对Wordcount等问题的处理时间相对与主流的分布式框架有明显缩短,但是本计算框架没有提供容错功能,当集群中某些节点发生异常时不能及时处理。