Gene Panel流程的并行设计与优化研究
Design and Optimization of Parallel Gene Panel Process作者机构:中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190 中国科学院大学北京100049
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2019年第42卷第11期
页 面:2429-2446页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:科技部国家重点研发计划(2016YFB0200300,2016YFB0201305,2016YFB0200504,2016YFB0200803,2016YFB0200204) 中国科学院战略性先导科技专项(XDB24050300)资助~~
主 题:大数据 Gene Panel 并行优化 负载均衡 底层库优化
摘 要:随着二代测序技术的快速发展,基因测序成本迅速下降,这导致基因数据的爆炸式增长,基因数据分析工具逐渐无法满足如此大规模的数据分析需求.一方面,基因数据分析工具大多仍为串行执行,无法有效地利用多核结构提升性能并导致计算资源的严重浪费;另一方面,由于前期设计和开发的局限性,分析工具所依赖的底层算法库不能兼顾高性能与友好的用户接口.Gene Panel是当前主流的面向癌症检测的基因数据分析流程,它也是由多种基因数据分析工具组成的.该文面向Gene Panel流程:(1)设计并实现了一套全新的并行Gene Panel基因数据分析流程,通过数据并行和任务并行两种主要并行手段并结合负载均衡等其他优化方法,有效地提升了多核平台的资源利用率,并获得了4~7倍的整体加速比;(2)设计并实现了一种接口友好的高性能基因数据分析底层库HCC.由于相似的算法特征,该文的优化方法同样适用于除Gene Panel外的其他测序流程.