基于图卷积网络的蛋白质可溶性预测
作者单位:福建师范大学
学位级别:硕士
导师姓名:欧阳松应
授予年度:2023年
学科分类:0710[理学-生物学] 12[管理学] 071010[理学-生物化学与分子生物学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081704[工学-应用化学] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0817[工学-化学工程与技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:可溶性是蛋白质的一个重要的特征,它可以保证或阻止蛋白质行使其功能,蛋白质可溶也是进行其他研究的前提条件。大肠杆菌是过量表达大多数非糖基化蛋白质的首选宿主。然而,重组蛋白在大肠杆菌的异源表达往往使蛋白质具有不溶性,降低了重组蛋白的产量。通过实验提高重组蛋白的产量这种经验优化通常需要消耗大量的时间和资源,效率较低,因此,需要一个精确的计算模型来预测蛋白质的可溶性。在大规模生物数据的支持下,机器学习建立模型所需的时间和资源相对较少,机器学习预测蛋白质溶解度结合蛋白质工程来提高蛋白质溶解度是一个值得尝试的研究领域。本文分析了对蛋白质可溶性影响的重要因素,对现有的蛋白质可溶性数据库进行了介绍,并对目前已开发的通过机器学习预测蛋白质可溶性的方法进行了整理,从数据集、算法、特征的选取等多个角度对这些方法进行总结和评价。当前已发展的方法存在两个问题:(1)在数据的选择上,多数方法仅考虑蛋白质是否可溶,对于蛋白质的表达系统无太多关注,无法为针对某一特定表达系统提供较好的蛋白质可溶性优化方案;(2)Graphsol是唯一使用蛋白质接触图的方法,然而局限于训练数据库的蛋白质数据丰度较低且都是大肠杆菌蛋白质组蛋白,Graphsol无法为超量表达异源蛋白提供参考。本文基于Graphsol,选择图卷积网络(Graph Convolutional Neural Networks,GCN)作为基础模型,利用Protein Data Bank(PDB)数据库中带有大肠杆菌表达系统标签的数据和Target Track数据库中的部分数据建立新的数据库作为训练数据,旨在提供针对大肠杆菌表达系统的泛用性更好的蛋白质可溶性分类模型。本文从PDB数据库和Target Tacrk数据库中获取蛋白质序列数据,经条件筛选、除冗余以及数据平衡后建立新的训练数据库,并选取蛋白质的序列特征和结构特征构建节点特征矩阵,选取蛋白质接触图构建邻接矩阵,通过图卷积网络进行数据训练,建立分类模型预测蛋白质可溶性。进行模型性能评估时,考虑到本文模型为分类模型,本文选取准确度(Accuracy,ACC),灵敏度,特异度,马修斯相关系数(Matthews correlation coefficient,MCC)作为评估指标。5折交叉验证后,预测的准确度达到了0.827,敏感度为0.840,特异度为0.815,马修斯相关系数为0.654,表明模型的性能较好。本文使用NESG数据库和通过实验验证蛋白质可溶性的实验数据分别对模型进行验证,对NESG数据库的预测准确度为0.532,灵敏度为0.281,特异度为0.746,MCC值为0.071;实验数据均来源于大肠杆菌表达系统,预测准确度为0.666,灵敏度为0.261,特异度为0.857,MCC值为0.394,为以后大肠杆菌表达系统的蛋白质可溶性预测提供新的方向和思路。