基于供求聚合模型的OAA数联卡工具研究与实现
作者单位:华南理工大学
学位级别:硕士
导师姓名:齐德昱
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:供求聚合模型 文件增量同步 异构数据集成 可变长分块算法 大数据计算
摘 要:随着大数据时代的到来,如何高效地对数据进行管理显得愈加重要。数据管理的难点,一方面在于数据量的急速膨胀,系统所要处理的数据量已远远超出单台机器的负荷。另一方面,则在于在不同的业务部门之间数据格式不一,数据来源异构且数据无法共享,难以进行异构数据集成并统一管理。除此以外,为了保证数据的高可用性,往往需要在多个服务器中存放同一份数据的多个副本来防止数据的丢失,而在这种情况下,如何高效保证源服务器与备份服务器间数据的一致性也是数据管理中不可忽视的一个环节。本文从课题研究背景出发,着眼于文件增量同步和异构数据集成两大功能模块的研究,提出了基于供求聚合模型的OAA(Object Access Agent)数联卡工具,该工具主要从以下三个方面展开研究:(1)基于CDC(Content-Defined Chunking)的文件增量同步方法实现,本文基于Rsync算法的原理,针对其计算时间消耗较长的缺点,提出了基于CDC的文件增量同步通用方法。该方法利用CDC算法抗字节移动能力强的特点,极大地降低了计算弹性,使其不会由于增量数据大小的增加而导致计算时间消耗的急速增加。在高速网络环境下,与Rsync算法相比,该方法具有更小的计算时间消耗与计算弹性,具有较强的实用性。(2)异构数据集成功能实现,本文以核心配置文件为驱动,以Spark分布式计算框架为基础,把异构数据集成功能根据计算流程从逻辑上分为了数据抽取,数据连接,数据转换,数据注入与定时同步共五个模块并进行相应的实现。此外,我们为Spark分布式计算框架中一些并不友好的设计进行了优化,允许通过动态注册UDF的方式实现数据转换以及基于分布式并发编程的方式进行数据注入,对Spark的原生功能进行了进一步的扩展,使得OAA数联卡工具在异构数据集成功能中具有较强的实用性与灵活性。(3)供求聚合模型的应用与功能扩展,该模型以“供求关系组织服务间的通信,支持服务的动态加入和功能扩充,本文对实现的文件增量同步功能与异构数据集成功能进行封装,并以挂件形式挂载至模型中,形成OAA数联卡工具,允许其他用户通过该模型进行相关服务的调用。除此以外,针对供求聚合模型数据处理功能的缺失,我们基于消息系统为其添加了数据缓存与数据访问功能,提高了模型内部对数据的可操作性。