咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Storm的设备日志流数据实时处理系统的设计与实现 收藏
基于Storm的设备日志流数据实时处理系统的设计与实现

基于Storm的设备日志流数据实时处理系统的设计与实现

作     者:薛允臻 

作者单位:南京大学 

学位级别:硕士

导师姓名:汤恩义

授予年度:2019年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:流式计算 大数据 Storm Kafka Zookeeper HBase 

摘      要:随着物联网技术的兴起,工业企业中机器和传感器等设备每时每刻都在产生海量的设备日志数据。这些数据具有实时性强且没有止境的特点。工业企业需要深入挖掘这些设备日志流数据中的潜在价值,来提高企业效益。当前工业企业中采用是基于Hadoop的设备日志数据处理系统,这类系统从数据库中直接获取静态的日志数据,并对数据进行离线处理。系统虽然吞吐量高,但由于响应时间没有保障,只适合对海量静态日志数据做批处理,无法满足处理设备日志流数据的实时性需求。流数据计算框架Storm的出现,让实时处理设备日志流数据成为可能,但Storm采用单个控制节点来负责整个集群任务分配、代码分发和监控等工作,当控制节点宕机之后,提交给集群的拓扑任务便无法执行,集群系统存在单节点失效性问题。本文针对目前设备日志数据处理系统中存在的实时性问题和单节点失效性问题,设计并实现了基于Storm的设备日志流数据实时处理系统。首先,针对实时性问题,系统采用Storm作为日志流数据处理的框架,省去批处理的数据收集时间和作业调度时间,让系统的响应时间缩短。同时系统在对日志流数据处理时,增加滑动时间窗口,只对时间窗内的日志流数据进行处理,保证了处理数据的实时性。其次,针对单点失效问题,系统采用主-从多个控制节的优化集群,在保证了集群多个从控制节点与当前主控制节点信息同步的基础上,利用Zookeeper集群的协调机制,在主控制节点宕机后,从控制节点利用竞选方式产生新的主控制节点,保证即使集群中主控制节点发生故障,其中一个从控制节点也会接管继续运行拓扑任务。本系统以可视化的方式将实时处理后的结果展示给工业企业的车间人员,旨在让车间人员通过使用本系统完成对车间设备运行状态的实时跟踪与监控,帮助工业企业智慧化管理车间的机器设备,进而提高企业生产效率,节约生产成本。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分