流数据分析系统负载管理技术研究
作者单位:华中科技大学
学位级别:硕士
导师姓名:王非
授予年度:2013年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:近年来,我国信息化进程取得极大进展。信息化的基础是数据的采集、存储、分析与利用。随着数据采集网络向更广更复杂的方向发展,同时数据采集的周期和采集精度不断提高,数据量呈现海量趋势。对于数据来讲,不仅具有值的属性,时间也是其重要的一个方面,数据的分析和利用与其时标特性密切相关,数据应用具有较高的时效性要求。多种采集环境、多种应用场景集成,数据形式、维度多样。总之,数据呈现海量、实时、多样的趋势。 面对数据的新特点,传统数据库面临着诸多挑战和问题。首先,传统数据库存储所有的数据,在海量数据的应用场景下存储面临瓶颈;其次,传统数据库在数据查询存在大量的I/O操作,无法满足数据处理时效性的需求;再次,传统数据库无法适应数据分析的新需求。 流数据分析系统是实时流数据采集、存储、分析的实时数据管理系统,在应对数据新特点带来的挑战方面有着诸多优势。实时流数据持续到达、速度快、规模大、不可预测,给流数据分析系统的负载管理带来了极大的挑战。流数据分析系统主要存在存储资源和计算资源两方面的性能瓶颈。目前的负载管理机制也是从这两个角度出发进行的。 本文首先研究了负载管理的各种技术,核心是从计算资源的角度出发,以降低负载技术为理论基础,设计了一种负载管理算法。首先对流数据分析系统中所有的连续查询进行有向图建模,通过图中算子的选择率以及元组处理耗时计算查询网络的处理容量,进而判断过载时机,为了充分利用数据抖动的特性,减少降载的可能,提出了过载预测算法。基于连续查询的精确性描述,设计了降载的概率模型;为了实现服务质量的均衡,设计了基于降载优先级为核心的降载位置确定方法。 通过仿真测试可以看出,在严重过载的情况下,算法降低了平均截止期措施率(Average Deadline Miss Ratio,ADMR),降低了查询结果的可用性损失(Utility Loss);同时仿真结果还显示,算法具有较好的自适应性、鲁棒性;在轻过载的情况下,本文的基于截止期的过载点预测算法很好的避免了实时降载方案,利用后续的处理空闲处理能力处理数据,保证查询的服务质量。