咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于自监督学习的单细胞转录组测序数据插补算法研究 收藏
基于自监督学习的单细胞转录组测序数据插补算法研究

基于自监督学习的单细胞转录组测序数据插补算法研究

作     者:熊泽昊 

作者单位:湖南大学 

学位级别:硕士

导师姓名:骆嘉伟

授予年度:2023年

学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 12[管理学] 0711[理学-系统科学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:scRNA-seq 插补 自监督学习 对比式学习 生成式学习 

摘      要:随着人类基因组计划的提出,单细胞测序技术已经可以获取数十万乃至数百万规模的大型细胞基因表达图谱。然而,由于单细胞转录组测序数据受到特殊表达模式和技术因素的影响,其数据表达矩阵中存在大量的缺失值,对生物意义的表达和探索造成了影响。对单细胞转录组测序数据进行插补是一种有效的数据处理方法,但是传统的单细胞转录组测序数据插补方法仍然面临着数据本身的拓扑信息难以被发掘,细胞之间的关联被忽视等挑战。与传统无监督方法相比,自监督学习方法能够从数据本身构建监督信息,更易于学习到广义的特征表示。本文面向单细胞测序技术,以自监督学习相关技术为手段,针对单细胞转录组测序数据插补算法进行研究,主要研究内容概括如下: (1)针对现有的无监督单细胞转录组测序数据插补算法中普遍存在的未高效利用细胞之间的关系,忽略局部信息与全局语义信息之间的结合等问题,本文结合图对比学习方法和零膨胀负二项分布,提出了一种单细胞转录组测序数据插补算法sc GCL(single-cell Graph Contrastive Learning)。该方法应用了图对比学习框架从细胞关联图和预聚类两个方面构造了不同层面的自监督信息,更好地学习细胞的特征表示。同时,考虑到单细胞转录组测序数据高稀疏、方差大于均值等特性,结合零膨胀负二项分布的自动编码器来重构单细胞转录组测序数据的表达值矩阵。实验结果表明,该方法在基因表达恢复、细胞聚类、时序轨迹推断等下游分析任务上都取得了较好的表现,并且通过真实案例分析增强了阿尔兹海默症数据集的基因表达模式,帮助指导了特异基因的富集分析研究。 (2)由于对比式学习模型的训练严重依赖于高质量的数据增强和数据筛选,而生成式学习模型具备更高的可扩展性和适用性,本文提出了基于生成式图自监督学习的单细胞转录组测序数据插补算法sc GSSL(single-cell Generative SelfSupervised Learning),用于探究生成式学习模型在单细胞转录组测序数据插补领域的潜力。一方面,该模型引入了多层图卷积自动编码器作为基本框架替换了传统的全连接层结构,从图结构中学习有效的自监督信息以增强模型的学习能力。另一方面,为了提升模型训练的鲁棒性,引入掩码训练策略、图结构重构策略和零膨胀负二项分布损失共同优化表达值的重构过程。实验结果表明,该方法在多个下游分析任务上都表现出了对比其他方法更好的潜力和性能,并且能够指导COVID-19数据集的分析和处理。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分