SNP互作建模与仿真研究
作者单位:曲阜师范大学
学位级别:硕士
导师姓名:尚军亮;张媛媛
授予年度:2024年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:全基因组关联研究 单核苷酸多态性 SNP互作模型 仿真框架 仿真软件
摘 要:随着高通量测序技术的发展和人类基因组计划的完成,全基因组关联研究(Genome-Wide Association Studies,GWAS)成为复杂疾病遗传原因解析的主要手段之一。GWAS是通过比较病例组和对照组的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)频率差异,识别与复杂疾病关联的SNP,对于理解复杂疾病产生与发展具有重要意义。然而,GWAS通常仅考虑单个SNP与疾病的关联,忽略了 SNP通过交互作用影响复杂疾病的情况。越来越多的理论和实验表明,SNP之间的交互作用是导致复杂疾病产生和发展的重要遗传基础之一。然而,由于缺乏互作模型和基准数据集,SNP互作识别方法的评估并不充分。因此,研究互作模型的生成和SNP数据的仿真是当前SNP互作研究中一项重要、必不可少的工作。本文系统总结了四种仿真框架的优缺点,提出了一种SNP数据仿真方法,设计并实现了 SNP数据仿真软件,集成了大部分当前主流的仿真方法,推动了 SNP互作识别方法的深入分析: (1)基于数据仿真的基本原理,系统总结了四种最常用的仿真框架,即溯祖仿真、前向仿真、重采样仿真和其它仿真框架。并对基于这些框架开发的仿真工具和方法进行了详尽介绍,并通过详细的数据对比和分析,深入探讨了它们的特点及各自的适用场景和优势,旨在为研究人员选择最合适的仿真软件,帮助他们更有效地解决复杂的SNP互作建模与数据仿真的问题。 (2)针对高阶纯互作模型难以求解的问题,提出了基于雅可比迭代的线性模型和基于拟牛顿法L-BFGS的非线性模型的求解方法。该方法将求解外显率值简化为寻找最小化目标函数的最优解,从而解决高阶纯互作模型的求解难题。通过迭代不断调整外显率的取值,以获得最优的外显率,求出致病模型并生成SNP仿真数据,为高阶SNP互作的研究提供统一的互作模型和基准数据集。此外,通过在MDR软件和互信息指标上的实验表明,该仿真方法在嵌入模型准确性、运行时间等方面具有广泛适用性。 (3)基于Python设计并实现了 SNP互作仿真软件。该软件集成了目前主流的仿真方法,包括使用内置模型进行仿真的方法、对存在/不存在边际效应模型进行仿真的方法和对具有生物特性数据的模型进行仿真的方法。同时该仿真软件融入了研究内容二中提出的高阶纯互作模型求解的仿真方法,使得用户可以在同一软件下任意选择多个不同仿真方法,进行不同的阶数、不同类型的互作模型的仿真。并且该软件是截至目前为止,功能最丰富、实用性最强的SNP仿真软件。此外,为用户提供了直观易用的图形用户界面,提升了人机交互的便捷性。