咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的膀胱癌驱动基因突变及患者术后生存预测模型的构建... 收藏
基于深度学习的膀胱癌驱动基因突变及患者术后生存预测模型的构建...

基于深度学习的膀胱癌驱动基因突变及患者术后生存预测模型的构建和应用

作     者:莫浩杰 

作者单位:苏州大学 

学位级别:硕士

导师姓名:侯建全

授予年度:2022年

学科分类:1002[医学-临床医学] 100214[医学-肿瘤学] 10[医学] 

主      题:膀胱癌 深度学习 驱动基因 突变预测 预后预测 

摘      要:研究背景膀胱癌(Bladder Cancer,BC)是泌尿系统常见恶性肿瘤之一,具有高发展性、高侵袭性和高死亡率等特点。随着分子生物学和遗传学研究的不断深入,越来越多的证据表明,驱动基因的突变是导致BC发展的主要因素之一,并与BC患者的预后密切相关。因此,寻找BC相关的驱动基因具有重要意义。研究表明,基因突变与BC的组织形态关系密切,通过对BC病理图像的深度解析,能够发现潜在的突变信号。近年来,人工智能(Artificial Intelligence,AI)技术飞速发展,其中,深度学习(Deep Learning,DL)作为主流的AI模型,在影像学、病理学等各方面有着广泛应用。通过对BC病理图像的深度学习训练,有利于发现BC的驱动信号,并进一步预测患者的预后,推动BC的精准医学和“基因型-临床表型跨尺度研究。目的本研究交叉融合泌尿外科学与生物信息学研究方法和技术,通过构建深度学习模型,预测BC的驱动基因突变及患者预后。方法收集三组BC患者的临床数据和病理样本。第一组队列来自TCGA(The Cancer Genome Atlas)数据库,包括404位病人的427张冰冻组织切片(TCGA-tissue)、37位病人的37张正常组织切片(TCGA-nocancer)和386位病人的457张HE染色切片(TCGA-dia),该部分数据用于DL的训练与内部验证。第二组队列(Soo-Seq)来源于苏州大学附属第一医院2014-2017年间的19位膀胱癌术后患者的46张HE染色切片,同时收集了对应的临床资料和基因测序数据,主要用于DL的外部验证。第三组队列(Soo-NSeq)来源于苏州大学第一附属医院2011年至2020年间的136例膀胱癌术后患者的542张HE染色切片,同时收集临床数据,该部分数据不包含基因测序信息,主要用于患者预后预测的外部验证。通过计算机扫描,将TCGA每一片切片扫描成互相不重叠的224*224的像素窗口,并基于MobileNetV2体系构建DL模型。将冰冻切片中75%作为训练集(TCGA-val),25%作为测试集(TCGA-test)。利用TCGA-val对卷积神经网络(Convolutional Neural Networks,CNN)进行训练,并进一步使用 TCGA-test、TCGA-nocancer、TCGA-dia 用于内部验证。为发现BC中高驱动性基因,本文引入适应度评分(fitness score,FS)的概念。计算BC各突变基因的FS,选择驱动性排列前10位的基因进行分析。根据每个病理切片中所有小切片的平均概率即预测分数(prediction score)进行突变的预测,并根据组织病理学图像中基因的突变状态调整MobileNetV2中的参数权重。比较模型预测各驱动突变的AUC,筛选出预测精度最高的驱动突变进行预后分析。在筛选出的驱动突变中,根据预测分数高低将病人排序,前20%为高分亚组,中间60%为中分亚组,后20%为低分亚组。分别比较各驱动突变中三个亚组间的生存率,并将各驱动突变的预测分数结合形成Combined模型,并在各亚组中进行分析。其次,根据各驱动突变预测分数的百分位范围从高到低进行排序(0-15%、5%-20%、10%-25%、15%-30%、20%-35%、25%-40%、30%-45%、35%-50%、50%以下)对病例进行分组划分,将高百分数组和50%以下的分组的生存率进行比较,同样将各驱动突变的预测分数进行结合分析。使用 Python 绘制 TCGA-test、TCGA-nocancer、TCGA-dia 和 Soo-Seq 队列各亚组的 ROC 曲线,采用Kaplan-Meier 分析和log-rank 检验评估TCGA-test、TCGA-nocancer、TCGA-dia和Soo-NSeq亚组间生存率的差异。结果通过TCGA-val对DL进行训练,并计算BC各驱动基因的FS,筛选出驱动性排名前 10 位的基因:TP53、FGFR3、CDKN2A、RB1、TSC1、KRAS、ARID1A、CDKN1A、KDM6A、STAG2。TCGA-test 中,DL预测前十位驱动突变的AUC分别为:FGFR3=0.74、TP53=0.66、STAG2=0.59、CDKN2A=0.59、KRAS=0.58、RB 1=0.58、CDKN1A=0.58、KDM6A=0.57、ARID1A=0.49 和 TSC1=0.43。通过AUC值,发现DL对FGFR3、TP53和STAG2这三个基因的预测精度最高,因此选择其进行内部和外部验证。内部验证上,TCGA-nocancer 中,DL 预测突变的AUC 为 FGFR3=0.41、TP53=0.50、STAG2 无法预测。TCGA-dia 中,D

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分