基于层级和全局特征结合的蛋白质序列EC编号预测
EC number prediction of protein sequences based on combination of hierarchical and global features作者机构:北京林业大学工学院北京100083 林业装备与自动化国家林业局重点实验室北京100083 城乡生态环境北京实验室北京100083 北京林业大学智慧林业研究中心北京100083
出 版 物:《遗传》 (Hereditas(Beijing))
年 卷 期:2024年第46卷第8期
页 面:661-670页
核心收录:
学科分类:0710[理学-生物学] 071010[理学-生物化学与分子生物学] 081704[工学-应用化学] 07[理学] 08[工学] 0817[工学-化学工程与技术]
基 金:国家自然科学基金面上项目(编号:32071838) 国家自然科学基金青年科学基金项目(编号:32101590)资助
主 题:酶功能预测 蛋白质序列 深度学习 层级多标签分类 全局特征
摘 要:酶功能的识别对理解生命活动的机制、推进生命科学的发展有重要作用。然而现有的酶EC编号预测方法,并未充分利用蛋白质序列信息,在识别精度上仍有所不足。针对上述问题,本研究提出一种基于层级特征和全局特征的EC编号预测网络(EC number prediction network using hierarchical features and global features,ECPN-HFGF)。该方法首先通过残差网络提取蛋白质序列通用特征,并通过层级特征提取模块和全局特征提取模块进一步提取蛋白质序列的层级特征和全局特征,之后结合两种特征信息的预测结果,采用多任务学习框架,实现酶EC编号的精确预测。计算实验结果表明,ECPN-HFGF方法在蛋白质序列EC编号预测任务上性能最佳,宏观F1值和微观F1值分别达到95.5%和99.0%。ECPN-HFGF方法能有效结合蛋白质序列的层级特征和全局特征,快速准确预测蛋白质序列EC编号,比当前常用方法预测精确度更高,能够为酶学研究和酶工程应用的发展提供一种高效的思路和方法。