咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种知识与数据融合的RNA二级结构预测方法 收藏
一种知识与数据融合的RNA二级结构预测方法

一种知识与数据融合的RNA二级结构预测方法

作     者:杨恩斌 

作者单位:吉林大学 

学位级别:硕士

导师姓名:刘元宁

授予年度:2024年

学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 12[管理学] 0711[理学-系统科学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:RNA二级结构预测 知识与数据融合 数据增强 GCN Transformer UNet 

摘      要:RNA(Ribonucleic Acid)作为承载遗传信息的载体,在基因表达和蛋白质合成等生物学过程中扮演重要角色,不同类型的RNA由于其特定结构能够实现不同功能。不过RNA三级结构更为复杂且易受温度影响,结构相对不稳定,因此RNA二级结构一般作为研究一级到三级结构合适的切入点。获得准确的RNA二级结构能够帮助研究者更好地了解RNA功能,具体地可以通过提取结构特征识别潜在的靶点区域,这对于基因注释和疫苗药物设计领域具有重大意义。 传统方法通过核磁共振(NMR)或X射线衍射等实验法确定二级结构,成本极高且适用场景存在局限性。比较序列分析法作为生物计算中的一种方法,虽预测精度高但十分依赖同源序列。基于最小自由能理论的方法(如RNAfold)作为近二十年来最火热的经典方法,预测稳定性和通用性较强,但预测精度存在瓶颈且大部分方法无法预测假结。如今基于深度学习的预测方法,已经在多个数据集上表现出优异的预测性能,却更倾向于堆叠网络结构,面临着模型参数量巨大、结构特征提取不足、外推预测能力差等问题。 为解决上述领域痛点问题,本文提出一种知识与数据融合的轻量级RNA二级结构预测方法GCNfold。该方法由结构提取器、结构与序列融合、长距离依赖提取器、解码与后处理四个模块组成,通过以三层图卷积神经网络(GCN)为核心的结构提取器,充分挖掘茎、发卡环、多环、内环、凸环等RNA结构局部特征,将其与通过Transformer和UNet提取到的序列维度特征拼接,便实现知识(结构)与数据(序列)融合的过程。 本文将实验过程分为家族与数据集内预测、数据增强与外推预测、PDB微调三个阶段,选取RNAStralign和bp RNA-1m等五个数据集,对比GCNfold和UFold等十个基线方法在多个测试集上的预测性能。结果显示,GCNfold在家族与数据集内预测阶段表现优异,在多个测试集上达到SOTA水平,与以往最优异的方法相比F1分数、、平均分别可以提升5.8%、8.1%、5.7%。为应对基于学习的方法外推预测能力普遍不足的情况,本文提出并使用序列碱基突变、碱基对突变、碱基对交换三种数据增强方法,生成3,000条合成序列以扩充训练集。经过数据增强的GCNfold,相比于原始模型三项指标分别可以提升16.1%、12.0%、20.6%,F1分数优于其他基于学习的方法,此时模型鲁棒性得到了有效提升。模型经过PDB数据微调,在PDB测试集上的F1分数为0.759,同样能够达到SOTA水平。 GCNfold仅用UFold不到三分之一的参数量(256万),便获得优于UFold的预测性能,完成一条RNA序列的二级结构推理仅需150毫秒。为应对高通量预测需求,本文给出GCNfold-Hit和GCNfold-Small,参数量分别为105万和53万,其中GCNfold-Small仅用15分钟就能完成一万条RNA序列的二级结构推理(平均一条序列90毫秒),并且在Archive II上可以达到接近0.9的F1分数。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分