云环境下的实时流计算平台研究
作者单位:北京邮电大学
学位级别:硕士
导师姓名:方滨兴
授予年度:2014年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:随着云计算技术的快速发展,越来越多的企业和个人将业务和应用部署到云环境中,其中,实时流处理业务占据的比重越来越高。传统云计算平台多为批处理平台(如Hadoop),批处理作业的输入是预先存储好的静态数据,作业规模可预知,数据处理完毕即停止。与批处理作业不同,实时流处理作业的输入是不间断的数据流,且数据量大小具有波动性。因此,如何在云环境下设计一套通用可靠的实时流计算平台成为了非常重要的问题。目前现有的实时流计算平台在平台编程模型、高可用性、动态负载均衡、资源及业务动态变更、平台监控等方面存在不足或局限性,难以适应不断变化的流处理业务需求。 本文围绕云环境下实时流计算平台中的核心技术,开展了一系列的研究与系统实现工作。首先,我们针对实时流计算平台的可用性问题,设计实现了一套基于Zookeeper的高可用架构,通过监控各模块心跳信息和故障迁移策略,确保平台及时检测并恢复程序级与节点级故障。然后,我们设计了一套松散的用户接口,可集成动态库与可执行程序业务,降低平台耦合性,使业务能更加灵活的集成到平台中来,解决了传统平台对业务接入方式要求过高的问题。其次,为了解决任务间多对多动态负载均衡问题,我们采用状态级调度器与分布式会话表技术,克服了在无全局会话表的情况下保持会话一致性的难点,并证明了该方法的收敛性,使平台中资源使用更均衡、资源利用率更高。再次,平台通过建立任务分配矩阵,优化了任务调度模型,使用户可通过任务分配矩阵方便的实现个性化任务调度策略。最后,为了解决分布式集群中共享资源和变量的一致性问题以及多主节点互备问题,采取了基于Zookeeper的分布式锁服务,提升了系统的健壮性。 在上述研究工作的基础上,本文实现了一套云环境下实时流计算平台——流水行云,该平台具有低耦合、高可用、低延迟、弹性可扩展的特点,并具有动态库与可执行程序业务接口、作业下发与运行时启停更新、动态的负载均衡策略、故障节点中任务迁移、多种任务分配策略、运行时资源动态变更、及丰富的UI监控信息等功能。通过该平台,用户可以摆脱通信实现、集群搭建、平台运维等困扰,将精力集中在业务的实现上,从而缩短业务开发周期、减少开发与运维成本、降低业务开发风险。实验结果表明:“流水行云实时流计算平台最大可承载吞吐量及处理延迟都处于同类平台中的领先水平。该平台为海量数据流实时处理,如电子商务实时交易数据处理、物联网传感流量分析、互联网流量监控等提供了可靠、通用、快速的解决方案。