利用TCGA公共数据库挖掘乳腺癌预后相关长链非编码RNA生物标志物
Screening of LncRNAs Related to Prognosis of Breast Cancer Using TCGA Public Database作者机构:四川省医学科学院·四川省人民医院个体化药物治疗四川省重点实验室药学部成都610072 四川省医学科学院·四川省人民医院乳腺外科成都610072
出 版 物:《华中科技大学学报(医学版)》 (Acta Medicinae Universitatis Scientiae et Technologiae Huazhong)
年 卷 期:2020年第49卷第3期
页 面:260-265页
学科分类:1002[医学-临床医学] 100214[医学-肿瘤学] 10[医学]
基 金:国家临床药学重点专科建设项目(No.30305030698) 四川省医学科学院省级公益性科研院所基本科研业务费资助(No.30504010425) 四川省医学科学院·四川省人民医院青年人才基金资助(No.2017QN15) 四川省卫生计生委普通项目(No.18PJ554)
主 题:乳腺癌 长链非编码RNA TCGA数据库 生物信息学
摘 要:目的通过数据挖掘的方式分析美籍非裔乳腺导管癌/小叶癌女性患者的乳腺癌及癌旁组织中差异表达的长链非编码RNA(lncRNA),筛选出与乳腺癌生存期相关的lncRNA,并探讨其潜在的生物学意义。方法利用TCGA数据库获取美籍非裔女性150例乳腺导管癌/小叶癌的癌组织和5例正常组织的转录组数据,采用Perl和R软件对数据进行提取、整理和分析,通过对差异表达的lncRNA进行单因素Cox回归分析,再将筛选得到的有显著性差异的基因进行多因素Cox比例风险回归模型分析,得到可将乳腺癌患者区分为高、低风险组的基因组合。采用lnCAR在线生存分析的方式验证筛选得到的基因。利用Pearson相关系数法筛选这些lncRNA的共表达基因,并将筛选得到的基因映射到metascape网站进行功能富集分析,探寻其潜在的调控网络。结果通过生物信息学分析筛选出在乳腺癌组织和正常组织中的表达差异具有显著性意义的差异表达lncRNA:lnc00640、PCAT6、HAGLROS和lnc00506。根据这4个lncRNA的表达模式将患者分为高、低风险组,其生存时间存在显著性差异(P0.01)。这4个因素构建的模型,其一致性指数(C-index)为0.77(95%置信区间:0.67~0.87);其受试者工作特征曲线下面积为0.82,模型具有较好的准确性。结论lnc00640、PCAT6、HAGLROS、lnc00506这4个lncRNA的表达可能对乳腺癌患者预后起重要作用,值得在大量临床样本中进行验证和后续的机制探讨。利用数据挖掘的方式筛选乳腺癌相关lncRNA是一种高效而经济的研究方式。