基于机器学习和基因组学数据的多基因风险评分模型研究-南通市图书馆

文献详情 >基于机器学习和基因组学数据的多基因风险评分模型研究收藏

基于机器学习和基因组学数据的多基因风险评分模型研究

学位级别：硕士

导师姓名：马宝山

授予年度：2021年

学科分类：0831[工学-生物医学工程（可授工学、理学、医学学位）] 0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：多基因风险评分基因组学数据机器学习癌症诊断癌症预后

摘要：多基因风险评分(Polygenic Risk Scores,PRS)可以将大量遗传位点的变异信息量化成能够衡量人体性状或复杂疾病易感性的分数,准确构建PRS模型能够实现疾病的预防、诊断和识别高危人群。但是目前PRS模型的预测精度相对较低,一是现有的PRS模型仅使用单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)数据构建,没有考虑基因组学数据。二是大量的SNP数据之间通常存在非线性关系,而传统的线性回归模型没能有效融合这些非线性效应准确构建PRS模型。针对目前严重威胁人类健康的乳腺浸润癌(Breast Invasive Carcinoma,BRCA)和肾透明细胞癌(Kidney Renal Clear Cell Carcinoma,KIRC),本文提出一种基于基因组学数据和轻量级梯度提升机(Light Gradient Boosting Machine,Light GBM)算法构建的PRS模型,主要工作内容如下:(1)数据的收集与预处理。本文使用的基因组学数据和临床数据均来自癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库。为了确保数据的质量和可用性,需要对原始数据进行预处理,包括对缺失值的定义和处理以及对数据进行标准化。(2)基于轻量级梯度提升机算法的多基因风险评分模型。针对癌症的诊断和预后预测,本文使用Light GBM算法分别构建预测病例对照和癌症阶段两种表型的PRS模型。将本文提出的PRS模型应用在BRCA和KIRC癌症的不同组学数据集中,并与基于传统线性回归和其他机器学习算法构建的PRS模型进行比较。通过综合分析相关系数的平方(r)、决定系数(R)、均方误差(Mean Square Error,MSE)和平均绝对误差(Mean Absolute Error,MAE)四种评价指标,结果表明本文构建的PRS模型可以获得较好的预测性能(BRCA:预测病例对照表型r的平均值为0.894,预测癌症阶段表型r的平均值为0.408;KIRC:预测病例对照表型r的平均值为0.947,预测癌症阶段表型r的平均值为0.631)。(3)多基因风险评分的集成模型。集成模型结合不同组学数据来提高PRS模型的预测精度。本文将4种单组学数据生成的PRS作为新特征,针对病例对照和癌症阶段表型分别构建Light GBM模型。结果表明,PRS的集成模型能够进一步提高PRS的预测性能,与单组学数据获得的最高预测精度相比,BRCA数据集中病例对照和癌症阶段表型的r分别提升了5.1%和2.8%,KIRC数据集中病例对照和癌症阶段表型的r分别提升了5.5%和0.8%。(4)多基因风险评分的生物医学应用。本文对集成模型计算的PRS进行了流行率分析、PRS与癌症风险的关联分析以及生存分析,进一步验证了提出的PRS模型对癌症诊断和预后的医学应用价值。总体来讲,基于基因组学数据和Light GBM算法构建的PRS模型相较于现有的PRS模型获得了更好的预测精度,同时使用多种组学数据构建集成模型可以进一步提高PRS模型的预测性能。生物统计分析表明本文提出的PRS模型可以为医务人员提供一种有效的诊断和预后工具。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于机器学习和基因组学数据的多基因风险评分模型研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于机器学习和基因组学数据的多基因风险评分模型研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：