咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >关键蛋白质预测及蛋白质变体表征算法研究 收藏
关键蛋白质预测及蛋白质变体表征算法研究

关键蛋白质预测及蛋白质变体表征算法研究

作     者:孙瑜穗 

作者单位:湖南师范大学 

学位级别:硕士

导师姓名:钟坚成

授予年度:2020年

学科分类:0710[理学-生物学] 071010[理学-生物化学与分子生物学] 07[理学] 

主      题:自顶向下质谱技术 蛋白质变体 关键蛋白质 

摘      要:蛋白质是生命过程的主要执行者。关键蛋白质作为维持细胞生命的重要组成部分,在生物学和药物设计研究中发挥着重要作用。与基因变异相比,蛋白质的分子结构及状态变化(即蛋白质变体)与疾病的病理变化更相关。表征蛋白质变体包括鉴定和定位蛋白质中的主要结构性变异(PSA),对推进医学事业发展具有现实意义。本文着力于从蛋白质组学领域中两个重要研究方向进行研究,主要创新点如下:随着关键蛋白质相关的大量生物学数据的产生,已经提出越来越多的计算方法用于预测关键蛋白质。与采用单种机器学习方法或集成多种机器学习方法的预测方法不同,本文设计出XGBFEMF预测框架用于预测关键蛋白质。该框架包括SUB-EXPAND-SHRINK方法,该方法利用初始特征构建复合特征并获得用于关键蛋白质预测更好的特征子集;还包括用于获得更有效的预测模型的模型融合方法。本文使用酵母数据进行实验,通过接受者操作特性曲线(ROC)分析、准确度分析和top分析来评估XGBFEMF框架的性能。同时,本文还使用大肠杆菌数据进行实验,以验证该框架的通用性。实验结果表明,XGBFEMF框架可以有效地改进多项关键性指标。随着质谱技术的发展,使得基于自顶向下质谱技术的蛋白质变体表征成为可能。在高通量蛋白质组学水平分析中,由于蛋白质变体鉴定需要将数百万个光谱与上万个蛋白质序列进行比对,导致基于谱图比对的鉴定算法非常缓慢。因此,过滤算法在蛋白质组学水平分析中必不可少。本文结合容错性方法与序列标签方法的速度优势以及ASF方法的准确性优势,提出一种名叫ETASF的过滤算法。本文使用组蛋白H3.1数据集和乳腺癌的一种亚型(WHIM2-P32)数据集进行实验,实验结果证明使用ETASF算法可以提升鉴定性能,并显著降低算法复杂度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分