基于分布式系统的组学数据分析优化的设计与实现
作者单位:北京邮电大学
学位级别:硕士
导师姓名:李书芳
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:组学数据来源于对生物学的系统性研究,是用于描述各类研究对象的数据集合。随着高通量测序技术的发展,组学数据分析越来越多地引入分布式技术以解决数据暴增所带来的挑战。为缓解国内该领域发展相对滞后的现状,本文搭建了面向组学数据分析的分布式计算分析平台,并结合组学数据分析中存在的检索问题、计算问题提出了优化方法。首先,论文设计了检索优化模型以解决组学数据检索问题。该模型基于键值对型数据库,实现了对数据集多维度的有序组织,同时可以在数据读写的过程中使用用户自定义函数对数据内容进行评估,增强了对不同组学数据分析应用的适用性。其次,为突破传统组学分析应用的性能瓶颈,论文对并行化算法设计在组学数据分析中的应用进行了分析探讨。通过经典序列比对算法的不同并行化实现与对比,提出了并行化优化设计应遵循均衡原则的合理性;再次,论文对基因组学数据进行了实验对比,验证了组学数据分析优化方法的有效性。最后,论文结合所提组学数据分析优化方法,设计与实现了相关系统与应用。