基于Transformer复合模型的sgRNA打靶活性预测方法
作者单位:华东师范大学
学位级别:硕士
导师姓名:江振然
授予年度:2023年
学科分类:0710[理学-生物学] 07[理学] 08[工学] 09[农学] 071007[理学-遗传学] 0901[农学-作物学] 0836[工学-生物工程] 090102[农学-作物遗传育种]
主 题:CRISPR/Cas9 sgRNA 深度学习 神经网络 Transformer
摘 要:CRISPR/Cas9系统是目前广泛使用的基因组编辑工具,在疾病治疗、基因功能调控等方面具有广阔的应用前景。然而,如何准确预测和评价单导RNA(sg RNA)的打靶和脱靶效应是CRISPR/Cas9系统设计的一个关键问题,利用计算方法获得高敏感性和特异性的sg RNA是开展sg RNAs优化设计的重要前提。目前,研究人员提出了许多用于sg RNA打靶预测的模型,尽管这些模型在预测能力方面取得了显著的效果,但在特征处理与模型架构方面仍存在提升空间。本文围绕如何提升模型预测sg RNA打靶活性的能力展开,主要内容与创新点概况如下:(1)提出了一个新的基于Transformer与CNN架构的sg RNA打靶活性预测模型Trans Crispr。Trans Crispr从多个层次对sg RNA的序列特征进行捕获,并通过Transformer结构在保证对序列信息进行全面学习的前提下重点关注有生物学意义的序列片段,有效提升模型的预测能力。同时对Transformer模块展开针对性的改进,引入动态残差结构,有效防止了信息损失与梯度消失。(2)在Trans Crispr模型的基础上提出了使用序列特征融合与生物学特征集成的方法,进一步增强模型的预测准确性。在特征方面,使用单碱基与二聚体混合的方式进行编码,实现了序列数据增广。在模型方面,将生物学特征学习模块与Trans Crispr模型进行集成,得到多特征融合的集成模型,提升了模型的鲁棒性。此外,基于Trans Crispr模型对进行了特征重要性分析,通过算法揭示模型训练过程中的生物学意义。(3)基于提出的预测模型,开发了sg RNA打靶活性预测工具,可以实现在多个Cas9基数据集下的sg RNA活性与生物学特征预测。本文在广泛使用的sg RNA数据集上与主流方法进行了比较,实验结果表明,本文提出的预测模型优于主流方法,同时也验证了多特征融合方法的有效性,为基因编辑实验提供了参考。