利用组学数据建立针对四种女性癌症的基于机器学习方法的生存预测模型
Development of omics data based survival models for four female cancers using machine learning approaches作者机构:北京理工大学计算机学院北京100081 北京理工大学自动化学院北京理工大学复杂系统智能控制与决策教育重点实验室北京100081 北京大学生命科学学院生物信息中心蛋白质与植物基因研究国家重点实验室北京100871 School of EngineeringFaculty of ScienceHealthEducation and EngineeringUniversity of the Sunshine CoastMaroochydore DCQueensland 455& Australia
出 版 物:《中国科学:生命科学》 (Scientia Sinica(Vitae))
年 卷 期:2019年第49卷第6期
页 面:738-748页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 100214[医学-肿瘤学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学]
基 金:国家自然科学基金(批准号:31671375) 国家重点研发计划(批准号:2017YFC1201200,2017YFF0207400) 澳大利亚阳光海岸大学研究启动基金资助
主 题:癌症基因组学 生存分析 Cox比例风险模型 随机生存森林模型 LASSO回归
摘 要:乳腺癌、宫颈鳞状细胞癌、子宫内膜癌、卵巢癌是女性常见的癌症.由于癌症的恶性发展并缺乏有效的早期诊疗手段,这些癌症已成为当今世界女性患者的头号杀手.为了探索高通量组学数据能否促进癌症患者的预后,本研究利用美国癌症基因组图谱项目中四种女性癌症的1861个样本的临床数据和多维组学数据(包括DNA甲基化、mRNA表达、miRNA表达和基于芯片的蛋白表达组学数据),建立了Cox比例风险模型和随机生存森林模型用来回顾性地预测患者的生存率.本研究发现,在宫颈鳞状细胞癌中,通过整合临床与DNA甲基化及miRNA表达组学数据建立的模型,生存预测能力显著高于仅使用临床数据的模型(一致性指数c-index中位数提高了8.73%~15.03%).本研究虽然验证了有些组学数据对特定癌症生存模型的预测能力有提升作用,但也存在着相对于临床数据,组学数据对模型的预测能力无显著提升的情况.这些结果为系统地开展基于癌症基因组学的生存预测研究及提升临床生存分析的预测准确性提供了有用经验.