基于线性混合模型的尼古丁依赖的遗传度研究
作者单位:山西医科大学
学位级别:硕士
导师姓名:吕庆
授予年度:2019年
学科分类:0710[理学-生物学] 07[理学] 071007[理学-遗传学]
主 题:全基因组 线性混合模型 遗传度 GCTA 尼古丁依赖
摘 要:目的:烟草使用是当今世界上可预防的致死性疾病发病的主要诱因之一。烟草使用的盛行不仅对人类健康造成危害,同时也给社会造成了严重的经济负担。尼古丁是烟草中的主要有害物质,最大危害就在于其成瘾性。吸烟者会持续不断的吸烟,从而产生尼古丁依赖。尼古丁依赖是一种复杂的多维表型,受到遗传和环境因素等的共同影响。遗传度是用来衡量遗传因素对表型作用的大小,大量的家系和双胞胎研究已经确定了遗传因素对尼古丁依赖的显著影响,但往往存在环境混杂因素等问题。高通量测序技术的出现,使人们能够直接估计与SNPs有关的遗传度。GWAS已经发现了许多与尼古丁依赖相关的SNPs,但GWAS确定的SNPs只能解释遗传度的很小一部分。本研究使用全基因组的SNPs,更准确地估计遗传因素对尼古丁依赖的影响,为找到更多引起尼古丁依赖的SNP位点提供依据。方法:研究资料是来自明尼苏达双胞胎和家庭研究测序样本中的681个家庭的1405个个体的全基因组测序数据和表型值。本研究用到的模型为线性混合模型(LMM),共拟合4个混合线性模型。第一个模型,使用全基因组所有SNPs和亲缘关系作为随机效应,加入性别这个协变量作为固定效应,方差组份数T=2;第二个模型是根据染色体划分全基因组SNPs,使用每对染色体SNPs的亲缘关系作为随机效应,性别作为固定效应,方差组份T=23;第三个模型是按照MAF大小划分全基因组SNPs,使用每个MAF组的SNPs和亲缘关系作为随机效应,性别作为固定效应,方差组份数T=8;第四个模型是根据基因的功能类别划分全基因组SNPs,使用每个类别的SNPs和亲缘关系作为随机效应,性别作为固定效应,方差组份数T=7。所有模型的各个组份的方差,均使用多组分限制性极大似然估计(REML-MC)来进行估计,从而得出每个组份的遗传度。模型拟合和遗传度的估计,均在GCTA软件中完成。结果:经过分析,全基因组所有SNPs解释了尼古丁依赖变异的44%。根据染色体划分全基因组SNPs时,得出每条染色体的遗传度。其中,8号染色体的遗传度最高,可解释尼古丁依赖变异的12%,其次是10号染色体,解释了尼古丁依赖变异的10.6%。按照MAF大小划分全基因组SNPs,得出每组MAF的遗传度。其中,最小等位基因频率在0.001-0.01之间时遗传度最高,解释了尼古丁依赖变异的24.8%。根据基因的功能类别划分全基因组SNPs,得出每个功能类别的SNPs的遗传度。其中,启动子(promoter)中的SNPs解释尼古丁依赖变异的38.1%。结论:全基因组SNPs估计的遗传度,能更准确地反映遗传因素对尼古丁依赖的影响。与尼古丁依赖有关的遗传信息,在8号染色体、10号染色体、启动子位置上相对较多,且可能存在效应较大的罕见变异。今后,在寻找与尼古丁依赖相关的位点时,可将研究重点放在8号染色体、10号染色体、启动子(promoter)上。且不能只研究常见变异的作用,罕见变异对尼古丁依赖的变异也有一定的影响。