咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >云环境中面向多请求的科学工作流数据管理方法研究 收藏
云环境中面向多请求的科学工作流数据管理方法研究

云环境中面向多请求的科学工作流数据管理方法研究

作     者:王思尧 

作者单位:西安电子科技大学 

学位级别:硕士

导师姓名:范磊

授予年度:2022年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

主      题:多请求 科学工作流 云计算 数据再生 数据存储 

摘      要:随着信息化技术的发展,科研人员在研究过程中需要对海量的原始数据进行处理分析,这是一个非常复杂的过程,需要进行大量运算。因此科研人员通常将整个处理分析过程分解成多个步骤,按照数据以及数据处理程序之间的依赖关系组织起来,形成可以自动化或半自动化运行的科学工作流。科学工作流在执行过程中会产生大量中间数据,这些中间数据通常规模庞大且具有复杂的依赖关系。一些重要数据会被科研工作者重复使用,或者在各个科研机构之间进行合数据共享。因此,科学工作流的执行需要高性能的计算资源以及海量的存储资源。随着分布式技术的发展,继网格、集群等技术之后,云技术的出现为科学工作流提供了新的发展平台。云环境中不仅拥有海量的存储资源以及高性能的计算资源,而且有利于不同地域的科学家开展各种工程合作或科学研究。云科学工作流执行时产生的大量中间数据,可以选择消耗存储资源将其存储,也可以将其删除,重用数据时通过计算资源重新对数据进行再生。因此如何提高云科学工作流的效率以及智能化水平,合理有效地管理这些中间数据,成为了具有挑战性的问题。此外云科学工作流是同时面向多个科研机构或者多个科研人员,存在同时或者短时间内会有多个请求需要计算再生的情况。将这些请求单独处理是不合理的,因此需要一个面向多请求的数据管理方法,来提升云科学工作流运行效率,降低服务成本。本文研究了云科学工作流的数据再生和存储优化问题,主要工作可以总结为如下几点:1.传统的数据管理方法面向的是单独的请求,而在实际中,系统经常需要同时处理多个数据集访问请求。针对科学工作流中间数据存储问题,为了以最小的计算成本再生多个请求数据,提出了多请求数据再生策略。基于所提出的再生策略,构建了科学工作流中间数据存储优化模型。此外,给出了枚举和遗传算法求解优化模型。最后,通过设计实验分析验证了多请求方法的有效性。2.在研究过程中发现多请求数据再生代价计算过程中存在重复计算的问题。针对多请求数据再生计算方法中重复计算的问题,数据再生方法以及数据再生计算过程进行分析。首先证明了数据再生方法的最优性,在此基础上提出了改进的多请求数据再生代价计算方法。最后通过实验验证了改进多请求数据再生计算方法的代价相对于原始的多请求方法更低、更准确。3.通过分析传统的基于数据依赖关系图的科学工作流的缺点,给出更加灵活的基于数据流图的科学工作流中间数据管理模型。经过分析,基于数据流图的科学工作流模型解决了数据依赖关系图存在二义性和难执行的问题。同时,设计实验对新模型进行验证,实验结果证明了基于数据流图的科学工作流数据管理模型计算更准确。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分