咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Storm的大数据实时处理架构的设计与实现 收藏
基于Storm的大数据实时处理架构的设计与实现

基于Storm的大数据实时处理架构的设计与实现

作     者:赵秭沐 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:王忠杰;王奇

授予年度:2018年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:大数据 实时处理 Storm KAFKA ElasticSearch 

摘      要:当今社会,对海量数据的挖掘使用越来越频繁。在实际场景中,往往需要对实时数据进行处理分析并及时反馈。起初很多企业为尽快响应业务需求,采用的方案是利用Redis的消息发布与订阅功能,结合List、Sorted Set、Hash的数据结构特性做处理,最后通过socket反馈。该方式强依赖共享内存,随着数据量级的飞跃,拼机器内存的做法显然不合适。由此,针对高并发、大数据、高实时的应用需求,本文设计并实现了符合现下场景的大数据实时处理架构。本文依托于实际业务场景中营销分析主题下广告分析、促销分析、优惠券分析三大子系统的功能需求。根据数据流向,本文将架构分为消息中间层(数据采集)、基础架构层(实时处理)、数据存储层、服务层和应用层五层结构。本文围绕五层结构开始技术选型,最终设计并实现了低耦合、高拓展、可复用的处理架构。首先,针对数据采集阶段,基于KAFKA构建消息队列实现缓存区,避免数据井喷式增长可能导致的数据滞后丢失等情况;其次,基于Storm构建流式处理框架,组成分布式数据处理网络,以解决传统消息队列控制复杂的问题;然后,结合数据特征与经济成本考虑,选用My SQL、HBase、Elastic Search实现多数据源组合存储;最后,为优化查询效率,基于Presto实现分布式SQL查询。本文研究的架构经过近一年的分析、设计、开发、调试、测试等多个环节的反复验证,从去年10月份开始,已逐步替换至线上环境使用且效果良好,充分证明其可用性、稳定性及高性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分