咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于HMM的蛋白质二级结构预测分析 收藏
基于HMM的蛋白质二级结构预测分析

基于HMM的蛋白质二级结构预测分析

作     者:李维鹏 

作者单位:云南大学 

学位级别:硕士

导师姓名:周冬明

授予年度:2017年

学科分类:0710[理学-生物学] 02[经济学] 0202[经济学-应用经济学] 071010[理学-生物化学与分子生物学] 020208[经济学-统计学] 081704[工学-应用化学] 07[理学] 08[工学] 0817[工学-化学工程与技术] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学] 

主      题:蛋白质二级结构预测 隐马尔可夫模型(HMM) CB513数据集 蛋白质序列 7-交叉验证 

摘      要:人类基因组计划自上世纪末正式启动后,通过科学家们前赴后继的攻克难关,终在本世纪初完成了人类基因图谱绘制,自此又称为后基因组时代,而蛋白质组研究就是后基因组时代生命科学中最重大的研究课题之一。想要研究蛋白质组,首要的任务就是研究其功能与结构。而科学界普遍的认知是蛋白质二级结构的预测是其整体结构预测的先驱,是首要的。它的原理就是通过对其中部分结构序列中的氨基酸进行类别划分,最终得到我们所需要的结果。因此,有一个准确率高的蛋白质二级结构预测方法能够对后续的研究有着一个承上启下的重要作用。蛋白质二级结构的预测方法自上世纪中期开始被研究提出,至今已有许多行之有效的方法,而本文所使用的方法则是使用隐马尔可夫模型(Hidden Markov Model,HMM)去预测。HMM是来解释一个有隐含且是未知参数的马尔可夫过程,它的状态是无法被直观观测得到的,但能够通过分析检测向量的序列从而得到结果。本次使用的数据集是典型的蛋白质数据集,CB513数据集。对其进行处理,除去其中一些不具有一般性的蛋白质序列,剩下492条蛋白质序列。将这些序列进行随机分组,选取其中420条蛋白质序列作为我们测试序列,将其随机分配成10组实验组,每组共42个蛋白质序列,又将其随机分成7等份,每等份有6条蛋白质序列,使用提高准确率的7-交叉验证的方法,即将6等份中的6等份作为训练集,剩下的一份作为测试集,相互测试共进行6次实验,然后一共有10组大实验组,即进行70次实验。而对于使用的HMM的模型,将单残基概率作为主要参数进行实验。得到最终的整体准确率达到了 58%以上。当然这种方法还可以改善,希望在以后的学习中可以进一步优化算法,使得准确率得到进一步的提高。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分