基于机器学习和基因组学数据的多基因风险评分模型研究
作者单位:大连海事大学
学位级别:硕士
导师姓名:马宝山
授予年度:2021年
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:多基因风险评分 基因组学数据 机器学习 癌症诊断 癌症预后
摘 要:多基因风险评分(Polygenic Risk Scores,PRS)可以将大量遗传位点的变异信息量化成能够衡量人体性状或复杂疾病易感性的分数,准确构建PRS模型能够实现疾病的预防、诊断和识别高危人群。但是目前PRS模型的预测精度相对较低,一是现有的PRS模型仅使用单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)数据构建,没有考虑基因组学数据。二是大量的SNP数据之间通常存在非线性关系,而传统的线性回归模型没能有效融合这些非线性效应准确构建PRS模型。针对目前严重威胁人类健康的乳腺浸润癌(Breast Invasive Carcinoma,BRCA)和肾透明细胞癌(Kidney Renal Clear Cell Carcinoma,KIRC),本文提出一种基于基因组学数据和轻量级梯度提升机(Light Gradient Boosting Machine,Light GBM)算法构建的PRS模型,主要工作内容如下:(1)数据的收集与预处理。本文使用的基因组学数据和临床数据均来自癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库。为了确保数据的质量和可用性,需要对原始数据进行预处理,包括对缺失值的定义和处理以及对数据进行标准化。(2)基于轻量级梯度提升机算法的多基因风险评分模型。针对癌症的诊断和预后预测,本文使用Light GBM算法分别构建预测病例对照和癌症阶段两种表型的PRS模型。将本文提出的PRS模型应用在BRCA和KIRC癌症的不同组学数据集中,并与基于传统线性回归和其他机器学习算法构建的PRS模型进行比较。通过综合分析相关系数的平方(r)、决定系数(R)、均方误差(Mean Square Error,MSE)和平均绝对误差(Mean Absolute Error,MAE)四种评价指标,结果表明本文构建的PRS模型可以获得较好的预测性能(BRCA:预测病例对照表型r的平均值为0.894,预测癌症阶段表型r的平均值为0.408;KIRC:预测病例对照表型r的平均值为0.947,预测癌症阶段表型r的平均值为0.631)。(3)多基因风险评分的集成模型。集成模型结合不同组学数据来提高PRS模型的预测精度。本文将4种单组学数据生成的PRS作为新特征,针对病例对照和癌症阶段表型分别构建Light GBM模型。结果表明,PRS的集成模型能够进一步提高PRS的预测性能,与单组学数据获得的最高预测精度相比,BRCA数据集中病例对照和癌症阶段表型的r分别提升了5.1%和2.8%,KIRC数据集中病例对照和癌症阶段表型的r分别提升了5.5%和0.8%。(4)多基因风险评分的生物医学应用。本文对集成模型计算的PRS进行了流行率分析、PRS与癌症风险的关联分析以及生存分析,进一步验证了提出的PRS模型对癌症诊断和预后的医学应用价值。总体来讲,基于基因组学数据和Light GBM算法构建的PRS模型相较于现有的PRS模型获得了更好的预测精度,同时使用多种组学数据构建集成模型可以进一步提高PRS模型的预测性能。生物统计分析表明本文提出的PRS模型可以为医务人员提供一种有效的诊断和预后工具。