咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于变分自编码器的冠状病毒蛋白质序列生成研究 收藏
基于变分自编码器的冠状病毒蛋白质序列生成研究

基于变分自编码器的冠状病毒蛋白质序列生成研究

作     者:雷影 

作者单位:广州大学 

学位级别:硕士

导师姓名:寇铮

授予年度:2023年

学科分类:1001[医学-基础医学(可授医学、理学学位)] 08[工学] 081104[工学-模式识别与智能系统] 100103[医学-病原生物学] 0811[工学-控制科学与工程] 10[医学] 

主      题:冠状病毒 刺突蛋白 序列生成 变分自编码器 

摘      要:自本世纪初以来,全球已经出现了三次冠状病毒的大范围流行,分别是2003年SARS,2012年MERS和2019年COVID-19,这些持续出现的冠状病毒已经严重影响了全球公共卫生。传统的防控手段相对被动,因此需要利用深度生成技术主动了解未来大流行病毒的分子特征,扩大病毒蛋白质序列空间,以促进冠状病毒相关疫苗和药物的开发。本文运用变分自编码器构建冠状病毒蛋白质序列生成模型,对冠状病毒刺突蛋白序列和刺突蛋白功能簇开展生成研究,并对生成序列进行验证和初步分析。具体研究内容有:1)冠状病毒刺突蛋白序列生成模型(Co V-VAE)。该模型以七种冠状病毒刺突蛋白原始序列数据作为输入,使用卷积神经网络进行编码,利用混合卷积网络对刺突蛋白序列进行解码,以生成长1200 aa的冠状病毒刺突蛋白序列,进一步从序列相似度(81%)、香农熵、关键位点和覆盖率(大于85%)等方面进行评估和分析,结果表明该模型能够有效生成冠状病毒刺突蛋白序列,具备可靠性和多样性。2)冠状病毒刺突蛋白功能簇生成模型(CFC-VAE)。首先将预处理后的刺突蛋白功能簇序列作为模型的输入数据,使用具有两个隐藏层的全连接神经网络进行编码和解码,实现长度为400 aa功能簇的采样和生成,进一步对生成序列从序列分布、香农熵、关键位点和覆盖率(大于73%)等方面进行评估和分析,结果表明该模型能稳定生成功能簇序列。本文建立了两种冠状病毒蛋白质序列相关的生成模型,将CFC-VAE与现有的Ar DCA模型进行比较,结果显示CFC-VAE(大于80%)生成效果优于Ar DCA(小于80%)模型。通过学习冠状病毒蛋白质序列特征,生成满足冠状病毒生物学特性的人工序列,扩大冠状病毒蛋白质空间,为疫情防控提供新思路。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分