多条件多样本RNA-Seq数据的剪切异构体表达水平估计
Estimation of transcription variant expression level based on multi-condition multi-sample RNA-Seq data作者机构:南京林业大学信息科学技术学院江苏南京210016 江苏健康卫生职业学院中西医结合学院江苏南京210018
出 版 物:《智能系统学报》 (CAAI Transactions on Intelligent Systems)
年 卷 期:2021年第16卷第6期
页 面:1126-1135页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61802193) 江苏省自然科学基金项目(BK20170934) 南京林业大学青年科技创新基金项目(CX2017031) 汕尾市省级科技创新战略专项资金项目(2018D2002)。
主 题:转录组测序技术 多条件 多样本 剪切异构体 表达水平估计 稀疏特性 读段分布偏差 数据噪声
摘 要:当处理多条件多样本RNA-Seq测序数据时,现有方法忽略了读段分布样本之间存在高度相似性的特点。本文提出了一个基于多条件多样本RNA-Seq测序数据剪切异构体表达水平估计方法 MCMS-Seq。该方法建立了一个联合偏差估计模型来提取读段分布在样本之间的相似性特征,同时考虑读段分布受全局偏差和局部偏差的影响。此外,增加了L_(2)/L_(1)组稀疏约束和L_(1)稀疏约束两个正则化项,用来体现基因和剪切异构体之间存在稀疏特性,以及消除技术性误差和数据噪声的影响。通过多个真实数据集的验证,MCMS-Seq方法能获得更为准确的剪切异构体表达水平,同时也能提供更有意义的生物性解释。