Acr基因数据库的构建与谱系分布等进化分析
作者单位:电子科技大学
学位级别:硕士
导师姓名:郭锋彪
授予年度:2020年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 07[理学] 08[工学]
主 题:CRISPR-Cas Acr 数据库 共进化分析 旁侧基因分析 自靶向效应
摘 要:随着CRISRP-Cas技术的普及,对CRISPR-Cas起抑制作用的Acr也逐渐得到关注和研究,以Acr为对象进行研究分析有其重要意义:(1)有研究表明Acr可以有效降低CRISPR-Cas技术的脱靶效应,针对Acr的研究有助于提升CRISPR-Cas技术的可用性和推广其应用领域。(2)虽然Acr研究较为热门,但目前已发现的Acr序列较少。基于已有的数据分析其特征,这有利于识别更多其他类型的Acr,无疑推动了对Acr的基础研究和应用研究。本文研究主要围绕Acr以及Cas与Acr的关系进行。从文献数据收集开始,截止2020年3月,Acr数据库总共有3627条序列,这包含了69条实验验证的序列和1253条预测序列,剩余的序列是我们基于验证序列同源搜索筛选得到的。这些序列属于8种不同类型,来自46个不同的Acr家族。关于序列的相关信息则统计在6张数据表格中,包含了序列编号、Acr类型、Acr家族以及相关基因信息和蛋白结构信息等。我们在这些数据信息的基础上建立了一个在线数据库网站AcrBank(http://***/AcrBank),该网站主要帮助用户能深入全面地了解其Acr序列,同时还提供了同源比对和关键字搜索功能,方便用户查询感兴趣的内容,以上这些数据都提供打包下载。在已有数据基础上,我们进行了共进化分析和旁侧基因分析。在共进化分析中,我们发现其Cas与Acr的谱系分布并不完全一致,虽然大部分Cas的分布范围大于其对应Acr的分布范围,但有其反例,如AcrVA。同时发现自靶向能作为筛选Acr的特征,但存在Acr不含有自靶向的情况,这反映了Acr在引进时有其复杂的过程。之后我们单独研究了Acr序列,并通过同源搜索和先验准则筛选获取了Acr同源序列。在密码子分析中发现其Acr序列与非Acr序列在密码子使用偏向性上存在明显差异,这表明了Acr可能是近期引入到宿主基因组中。在旁侧保守基因分析中,我们发现在AcrIF、AcrIE和AcrIIA附近很可能存在其保守序列。经过功能域注释后,可看到HTH功能域家族存在于多个不同类型Acr的附近,另外有部分Acr家族存在其独有的功能域,如只有AcrIIA9的附近序列存在其锌指结构域。这些特定的功能域有助于识别筛选新的Acr,对研发识别Acr算法提供了理论支持。