与棉纤维发育相关的EST生物信息学分析
作者单位:南京农业大学
学位级别:硕士
导师姓名:郭旺珍
授予年度:2007年
主 题:生物信息 EST 功能分析 相似性 代谢 Unigene
摘 要:棉花作为纤维的重要来源,是一种重要的经济作物,在世界经济中发挥着重要的作用.随着测序技术和生物信息学的快速发展,GenBank等重要分子生物数据库中登陆的序列呈指数增长,截至2007年4月,NCBI、EMBL和DDBJ3大数据库收录的核酸序列已经达到67,218,344条,共计71,292,211,453碱基对,其中棉花EST有281,233条,利用生物信息学手段对棉纤维发育相关的EST进行大规模分析显得日益重要.本实验利用138,086条与棉纤维发育相关的ESTs进行生物信息学研究,开发新标记和功能分析,为加密遗传图谱、基因定位、发掘新基因、比较基因组、基因网络分析和分子进化奠定坚实的基础. 为了在棉花中开发EST-SSR功能性标记,利用生物信息学方法对NCBI网上公开的63485条雷蒙德氏棉(Gossypium raimondii Ulbrich)ESTs序列进行EST-SSRs特征分析.剔除冗余序列,得到非冗余序列58906条.在非冗余序列中发现含不同重复基元SSRs的EST序列有2620条,共2818个EST-SSRs,EST-SSRs序列的频率是4.45%,平均相隔14.8kb出现一个SSR.在1-6bp的重复基元中,三核苷酸重复基元的SSRs出现频率最高(38.31%),其次是二核苷酸(24.09%)、单核苷酸(23.35%).统计所有的重复基元类型,所占比例最大的是A/T(18.67%),其次是AT/TA(14.83%).在复合型(Compound)中发现三核苷酸串联三核苷酸的重复基元出现频率最高,为48.65%.利用Prime 3软件,设计了1554对EST-SSRs引物,应用这些引物对我室四倍体作图亲本陆地棉TM-1和海岛棉海7124进行多态性检测,其中744对有多态性,多态性频率为47.9%.这些EST-SSRs已有效用于不同棉种间的分布特征比较及染色体定位等方面研究. 对来自A组、D组和AD组的12个棉纤维发育时期混合cDNA文库的138,086条ESTs序列进行不同棉种间EST序列同源性比较,其中A组(***,7-10dpa)39,117条、D组(***,-3 to 3dpa)32,316条和AD组(***,10个文库,覆盖-3-25dpa)66,653条,通过同一种内EST序列拼接分析,分别得到A、D和AD三个棉种的Unigenes16,100条、11,912条和14,307条,共42,319unigenes.经过对不同基因组间的Unigenes序列相似性分析,得到七个集合(D∩(?)∩(?)、AD∩(?)∩(?)、A∩D∩AD、A∩D∩(?)、A∩AD∩(?)、A∩(?)∩(?)和D∩AD∩(?))的相似序列,分别对A组和D组间共有而在AD组间没有相似性(A∩D∩(?))的序列937条,A组和AD组间有而在D组间没有的(A∩AD∩(?))2,717条,D组和AD组间有而在A组间没有的(D∩AD∩(?))2188条,三个组间相似性高的序列(A∩D∩AD)共有2441条。D组独有(D∩(?)∩(?))的6346,A组独有(A∩(?)∩(?))的7996和AD组独有的(AD∩(?)∩(?))4467条Unigenes进行了功能注释和代谢分析.结果表明: (1) A组、D组和AD组间不同关系(D∩(?)∩(?)、AD∩(?)∩(?)、A∩D∩AD、A∩D∩(?)、A∩AD∩(?)、A∩(?)∩(?)和D∩AD∩(?)七个集合)的相似性序列进行功能分类分成生物进程(Biologicat Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)3个类型.在同一功能类型不同集合中所占比例最大的前两种功能基本相同,生物进程中所占比例最大的是cellulaur process,其次是metabolicprocess;细胞组分中所占比例最大的是cell/cell part,其次是organelle;分子功能中所占比例最大的两个是catalytic activity和binding,即在棉纤维发育进程中,具有催化活性的基因在不同棉种中均发挥着重要作用. (2)对A、D、AD基因组七个集合27,092条相似性序列进行功能和代谢分析.功能分析表明,13,845条功能已知,13,247条未知功能.利用KEGG数据库进一步对已知功能的13,845条序列进行代谢分析,2,543条Unigenes有代谢途径,其中能量和碳水化合物代谢最多(1607,63.19%),其次是氨基酸代谢(718,28.23%).在已知功能的13,845条序列中与棉纤维发育相关的重要基因如膨胀素、纤维素舍酶、蔗糖合酶、UDP、磷酸烯醇丙酮酸羧化酶、蔗糖转运