联合基因表达数据和数字病理图像的乳腺癌生存期预测研究
作者单位:中国科学技术大学
学位级别:硕士
导师姓名:李骜
授予年度:2021年
学科分类:1002[医学-临床医学] 100214[医学-肿瘤学] 10[医学]
主 题:乳腺癌生存期预测 双线性模型 深度前馈神经网络 基因表达数据 数字病理图像
摘 要:乳腺癌是全球女性最常见的癌症之一,同时也是造成女性癌症死亡的首要原因。对乳腺癌患者进行准确的生存期预测对于指导临床医生制定个性化治疗方案,以及帮助建立姑息治疗和临终关怀体系均具有重要意义。已有研究表明基因表达数据和病理图像中均蕴含与乳腺癌生存期预测相关的重要信息,且上述两种类型数据之间存在关联性和互补性,因此有效联合基因表达数据和病理图像以提升乳腺癌生存期预测性能具有重要意义。然而现有生存期预测方法大多采用直接拼接不同类型数据的方式,忽视了不同类型数据之间的复杂相互作用关系,使得生存期预测性能具有局限性。为解决这一问题,本文通过充分挖掘不同类型数据之间及其内部的相互作用关系,从而显著提升乳腺癌生存期预测性能。本文主要完成以下几个方面的工作:(1)为有效联合基因表达数据和病理图像,本文提出一种基于双线性模型的生存期预测方法GPDBN。该方法首先利用CellProfiler工具提取病理图像的细胞核、细胞质以及图像水平的特征。随后,分别利用GPDBN中的模间和模内编码模块,以充分挖掘不同类型数据之间及其内部的相互作用关系。最后,利用深度预测模块准确预测患者的生存期。基于多个性能指标的评估结果表明,GPDBN中的模间和模内编码模块均有助于提升乳腺癌生存期预测性能,同时与现有方法的性能比较也体现了 GPDBN的优越性。(2)为有效挖掘病理图像中蕴含的生存相关信息,并充分利用TCGA乳腺癌数据集中删失样本所蕴含的生存信息,本文进一步提出一种有效联合基因表达数据和病理图像的深度双线性生存期预测方法DBNSurv。该方法首先利用预训练VGG19深度卷积神经网络提取病理图像的高层抽象特征,随后利用模间、模内编码模块以及深度前馈神经网络将其与基因表达特征进行有效联合,最后利用Cox偏对数似然损失函数训练模型以有效提升乳腺癌生存期预测性能。实验结果表明,VGG19深度卷积神经网络提取的病理图像高层抽象特征可显著提升乳腺癌生存期预测性能。与现有生存期预测方法相比,DBNSurv也取得了更好的生存期性能。