数据仓库中物化视图选择和维护算法研究与改进
作者单位:河北经贸大学
学位级别:硕士
导师姓名:王建军
授予年度:2016年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:数据仓库 OLAP 物化视图 遗传算法 更新频率 维护
摘 要:数据仓库作为一个数据集合,具有面向主题、集成、反映历史变化、相对稳定的特点,它的内容来自各种异构数据库的集成数据。数据仓库的本质是一个非常大的数据存储,但是面向主题的数据组织方式不同于普通数据库。作为决策支持数据模型的物理实现,运行之上的应用主要有联机分析处理和数据挖掘。数据仓库中的查询越发困难,是基于它庞大的数据量和复杂的结构,且即席查询耗用时间很长。物化视图技术就是为了提高查询分析效率,它的思想是把查询结果提前计算出来并以视图形式物理存储。在现实应用中,物化哪些视图需要考虑存储和查询代价以及视图维护代价等因素。本文使用多维数据格组织视图,并提出了查询维护代价模型,即满足给定存储空间限定条件下选取查询代价与维护代价之和最小的物化视图集。通过预处理算法得到候选视图集,然后根据代价模型计算出候选视图集合中视图的代价。改进了基于遗传算法的物化视图选择算法,采用一种混合策略的选择算子,并根据适应度集中程度自适应调整种群的交叉概率。和经典遗传算法比较,改进算法不仅降低了搜索视图的成本,而且还使得数据仓库的查询效率加快。物化视图虽然有效地提高了系统对用户查询响应速度,但也带来了物化视图的维护问题。物化视图中的内容是查询基础数据产生的,这些基础数据来自其他独立的异构数据源,如果数据仓库的数据源端发生变化,物化视图中的数据也应作相应改变,和原始数据保持同步。如何保证两者内容的同一性,成了数据仓库研究领域中非常关键和难以解决的技术问题。本文在分析现有常用物化视图维护算法的基础上,重点研究了基于更新频率分组的维护算法,并在此基础上改进了算法。针对每组中基础表增量的大小升序排序,并按此顺序进行物化视图的更新。该算法经实验验证提高了物化视图的维护效率。