OLAP系统中Cube并行与分布式处理技术的研究
作者单位:扬州大学
学位级别:硕士
导师姓名:陈崚;胡孔法
授予年度:2007年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:数据立方体(Data Cube,Cube)是一项可对数据仓库中的数据进行快速访问的技术,它是联机分析处理(On-Line Analytical Processing,OLAP)的主要对象。决策分析者可以在Cube中享受高效率的数据访问,快速获取有用的决策信息。 在本文中,我们提出了在并行环境下建立基于高维数据的Cube数据存储和OLAP查询分析系统,以及在网络环境下建立基于海量痕迹数据的Cube数据存储和OLAP查询分析系统,并给出了该方面工作的进一步研究思路。 随着数据仓库中数据规模的不断增大,Cube的维度和维度的层次结构日益复杂,在单处理机上物化整个Cube,无论在计算时间还是存储空间上的代价都十分昂贵。尽管采用了许多改进的算法及Iceberg Cube,Condensed cube,Dwarf等Cube压缩技术,也不能从根本上解决高维数据的Cube存储问题,并行技术为我们解决这一问题提供了新思路。 本文针对高维数据所引起的“维灾,提出了一种并行环境下的高效存储结构——HDCube(High Dimensional Cube),HDCube通过分段划分策略将高维层次数据根据节点的个数划分成若干个低维层次数据,利用并行处理技术创建各个节点上的LDCube(Low Dimensional Cube),同时充分利用维属性具有层次性的特点,采用基于维层次编码(Dimenison Hierarchical Encoding,DHE)的索引技术,生成各个维的维层次编码表来代替维表中原关键字,在实现维关键字压缩的同时加快了Cube中的数据检索速度。然后结合并行处理技术,建立了并行环境下的HDCube数据存储与OLAP查询分析系统,对HDCube进行并行创建与增量更新维护,并给出了HDCube的并行查询处理及优化算法。理论分析和实验证明,相对于以往的完整物化和部分物化等传统方法,我们提出的并行环境下的HDCube性能有显著的提高,具有很高的效率和加速比。 OLAP除了在传统领域,如金融、保险、电信等行业中的特定应用之外,在物流行业的发展也很广阔。我们结合危险品运输过程中产生的海量痕迹数据,提出了海量痕迹数据的Cube存储结构——MTCube(Massive Trace Cube),MTCube适用于实际应用中普遍存在的海量痕迹数据,它在根据痕迹数据特性大幅度压缩数据的同时,通过层次前缀痕迹(Hierarchy Prefix Trace)和层次前缀标识(Hierarchy Prefix ID)在存储结构中记录数据的痕迹,帮助用户在跟踪危险品的同时,能从庞杂的数据中进行信息提炼,分析现在的、有用的关系和模式,为复杂数据的分析和高层决策提供更有效的支持。 由于痕迹数据往往是海量的、地理分布的,同时查询复杂化和显示多样化的需求不断地增加,原有的集中式管理已经越来越表现出其局限性。为此我们提出了建立网络环境下的MTCube数据存储与OLAP查询分析系统,它由若干个本地站点的局部Cube/OLAP系统(Local Cube/OLAP System,LCOS)组成。理论分析和实验证明,我们提出的MTCube在对数据进行高度压缩的同时,可以支持对危险品的有效监控和风险预测。