基于深度学习与领域规则建模的蛋白质信号肽及其切割位点预测
Predicting protein signal peptides and their cleavage sites based on deep learning and domain rule modeling作者机构:上海交通大学图像处理与模式识别研究所上海200240
出 版 物:《南京理工大学学报》 (Journal of Nanjing University of Science and Technology)
年 卷 期:2020年第44卷第3期
页 面:278-287页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:国家自然科学基金(61725302 61671288 61903248)
主 题:深度学习 领域规则 蛋白质 信号肽 知识迁移 门控循环单元 条件随机场
摘 要:为了提升蛋白质信号肽及其切割位点预测精度,有效区分3种不同类型的信号肽,提出基于位置特异性打分矩阵(PSSM)和同源检测迭代的隐马尔科夫(HMM)文件的深度学习预测方法。设计基于自注意力机制的神经网络模型用于信号肽预测,并使用基于知识迁移的模型集成方法提升预测效果。设计基于门控循环单元(GRU)网络的条件随机场(CRF)来预测信号肽切割位点,并集成领域规则方法提升预测能力。实验结果表明,该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽预测任务的平均马修斯相关系数(MCC)为0.962。该文方法对革兰氏阴性菌和革兰氏阳性菌的Sec/SPI、Sec/SPII与Tat/SPI信号肽切割位点预测任务的平均召回率和准确率分别为0.698和0.662。在部分信号肽样本上,该文方法能正确预测SignalP 5.0方法预测错误的样本,2种方法在切割位点的预测上存在着一定的互补性。