基于稀疏矩阵恢复的scRNA-seq插补方法研究
作者单位:北京化工大学
学位级别:硕士
导师姓名:高敬阳
授予年度:2024年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 08[工学]
主 题:单细胞RNA测序 增广拉格朗日乘子法 稀疏矩阵插补 dropout插补
摘 要:单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)技术是一种在单个细胞层面对RNA进行测序并定量基因表达谱的高通量测序技术。scRNA-seq技术在解析单个细胞基因表达、揭示细胞间异质性以及鉴定细胞亚群方面具有显著优势,并且在健康诊断、病情监测和疾病治疗的研究中发挥着重要作用。然而,由于技术原因,scRNA-seq数据经常存在大量缺失(dropout)现象,即零值或接近零值,给下游分析带来重大挑战。为此,本文提出一种基于增广拉格朗日乘子法的scRNA-seq数据插补方法,即scIALM。本文主要研究内容如下: (1)针对scRNA-seq数据插补问题的压缩感知理论应用可行性分析。针对scRNA-seq数据表达矩阵,将一维信号的稀疏性概念拓展为矩阵空间的低秩性,即矩阵的奇异值组成的向量是稀疏的。将压缩感知理论拓展为矩阵填充理论,使得采用压缩感知理论进行scRNA-seq缺失数据恢复具有可行性。 (2)提出一种基于非精确的增广拉格朗日乘子法的插补算法,用于估算scRNA-seq数据表达矩阵的缺失值。将scRNA-seq表达矩阵插补问题建模为最小化矩阵秩的问题。首先,将非凸的优化问题转化为凸问题,目的是能够求得全局最优解。然后,利用增广拉格朗日乘子法,将带有等式约束的优化问题转化为无约束的优化问题进行求解,以简化求解过程,提高效率。 (3)通过实验验证scIALM方法的有效性。在四个真实数据集(PBMC、Klein、Chen和Campbell)和三个模拟数据集上,将scIALM方法与其他六种方法进行了实验比较。实验结果显示,在插补效果方面,scIALM方法优于其他方法,在均方误差(MSE)、平均绝对误差(MAE)、皮尔逊相关系数(PCC)和余弦相似度(CS)指标上均表现出色。特别是在鲁棒性方面,scIALM方法明显优于其他六种方法,即使在高达50%的dropout噪声下,scIALM方法仍能维持有效性,并且随着噪声水平的不断增加,其性能下降幅度最小,显示出极高的稳定性。