咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >全基因组序列分析软件流水线的并行与优化关键技术研究 收藏
全基因组序列分析软件流水线的并行与优化关键技术研究

全基因组序列分析软件流水线的并行与优化关键技术研究

作     者:王恒 

作者单位:国防科学技术大学 

学位级别:硕士

导师姓名:朱小谦

授予年度:2014年

学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 

主      题:全基因组序列分析 高通量测序 基因组装 BWT 天河二号 序列比对 RNA编辑 

摘      要:随着基因组测序技术的不断发展,生物序列数据库规模持续以每10个月翻一番的速度快速增长,当前全基因组序列分析软件流水线的性能已无法满足基因组序列数据处理的时效性需求。本文在对当前生物全基因组序列分析流程进行深入剖析的基础上,对当前流程中基因组组装、序列比对和下游分析三个模块进行了优化加速。并通过实验证明,优化工作取得了显著效果。首先,对当前全基因组序列组装面对的内存需求大、整体效率低的问题进行了分析与实验验证,发现当前大规模短序列BWT的索引构建过程效率差、耗时长是导致基因组组装整体效率低下的主要原因。本文设计了一种新型的大规模DNA序列BWT索引并行构建算法,并提出了一种高效的剪枝策略,在此基础上开发了大规模DNA序列BWT索引并行构建软件BWTCP。我们在天河二号上对BWTCP进行了测试,使用16个计算节点在半小时内完成10亿条长为100个碱基的DNA序列的BWT索引构建。当前最为广泛使用的索引构建软件BCR需要13个小时来完成相应任务。另外,当前的索引构建软件对序列长度十分敏感,BWTCP通过高效的剪枝策略解决了这一问题。针对当前全基因组序列比对时效性低、难以满足生物序列大数据的处理需求的问题,我们和华大基因-香港大学联合实验室共同开发了一款面向Intel MIC协处理器的DNA序列比对软件MICA。MICA面向Intel MIC协处理器和天河二号超级计算机软硬件架构设计,采用双向BWT索引和Smith-Waterman动态规划算法进行DNA序列比对,具有接近线性加速比的扩展性能。我们在天河二号超级计算机932个节点上对MICA进行了测试,在一个小时内完成了17.4TB DNA序列的比对,相同工作量在一般的12核服务器上需要运行三个月。当前下游分析环节中RNA编辑位点识别方法受人为因素影响大,缺乏一款客观的高可信度的RNA编辑位点识别模型。针对此问题,我们提出了一个基于高通量序列比对的RNA编辑位点识别模型,该模型分析造成RNA与DNA差异的四种事件的特点,通过Bayesian后验概率模型计算各位点是RNA编辑位点的概率。经验证该模型的可信度比当前通用方法高18%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分