基于数据质控的全基因组G四联体结构分析
作者单位:东南大学
学位级别:硕士
导师姓名:陆祖宏;涂景
授予年度:2019年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 07[理学] 08[工学]
摘 要:G四联体是一种由富含鸟嘌呤的核酸序列通过Hoogensten氢键折叠形成的二级结构。作为一种重要的基因表达调控元件,G四联体在人基因组大量分布。目前对于G四联体在体外的物化性质、空间结构等性质都有了较详细的研究。但对于全基因组范围内实际可形成的G四联体的分布和功能的研究仍存在一定困难。本课题针对GM12878细胞系全基因组中G四联体结构进行了研究,基于Perl程序语言撰写脚本,建立了一套生物信息学的分析流程,从常规二代测序数据中挖掘出具有形成G四联体潜力的序列(QGRS),并对其检出G四联体的性能进行了评估,最后对单碱基突变造成的G四联体形成影响进行了简单研究。我们利用了测序过程中模板链上G四联体的形成将对合成链序列质量造成影响的性质,对每个位点的序列质量值计算了中位数,并以此作为该位点质量值的分数。在流程的核心部分,即OQ(Observed QGRS)的检测中,我们设计了一种比较两位点质量值的逐点扫描筛选法,这是一种在小范围区域内基于当前质量值情况的比较法,可避免单一阈值不能应对大范围的无质量值起伏导致漏选或多选的问题。我们还建立了一套算法参数调整的方案,使其适用于各种样本的筛选。对于PQ的预测,我们使用了一种基于机器学习算法的QGRS预测软件g4predict对参考序列(hg19)进行了全基因组范围内的预测。共得到了356,298个PQ(Predicted QGRS),其中正义链为178,606个,反义链有177,692个。在全基因组范围内,我们利用序列的质量值变化筛选出低质量区域最终从两批GM12878测序数据中分别检测出1,054,941个和936,545个OQ,约为PQ数量的2.7倍,总长度为基因组非N区序列长度的3%左右。对OQ中包含的QGRS结构按照QGRS的种类分类的结果显示,我们共成功检测出经典型、长环型、突起型和2G型四种,并从没有QGRS的序列中检测出了其他二级结构(i-motif、发卡结构、三螺旋结构)的存在。总体而言,仍有约6.3%的OQ无法被分类。我们评估了OQ与PQ序列重合的比例,统计出可被OQ检测出的PQ的数量(PQinOQ),两批数据分别检测出了185,822个和172,946个PQ,占总PQ的52.2%和48.5%。较低的OQ长度和较高的PQ检出率显示了本流程筛选的OQ的高准确性。对PQ和PQinOQ的结构做分类统计证实了环长度较短的G四联体在Na环境下显示出了更强的稳定性。本课题得到的QGRS富集结果与2015年一项在添加了K和PDS的促G四联体形成的条件下完成的全基因组QGRS筛选阳性结果进行了比较,其中超过80%的PQinOQ在两种实验中是一致的。在基因组的不同功能区域中对OQ和PQinOQ的密度进行统计结果中,PQinOQ的分布与G四联体承担的一般功能相符合,在转录起始位点和启动子区域呈现出最大密度。OQ序列,尤其是包含了经典型G四联体的OQ,除了基因调控区域外,在编码区也有较多分布。对于部分基因,我们使用了IGV Tools对这些位点的中位质量值和OQ及PQ的分布进行了可视化分析。针对单碱基突变(SNP)我们研究了GM12878基因组的1号染色体数据。按照纯合和部分杂合SNP位点信息修正PQ预测信息,修正后的PQinOQ的结果较未修正增加了126个,体现出修正后的参考序列预测得到的结果更接近实际序列情况。我们对几处杂合SNP位点相关序列进行了抓取和观测,直观证实了不同基因型带来的质量值的变化则可验证单个碱基的突变确实可以影响G四联体的形成。