轻度认知障碍亚型可解释性识别框架构建与预后风险评估
作者单位:山西医科大学
学位级别:硕士
导师姓名:余红梅
授予年度:2023年
学科分类:1002[医学-临床医学] 100205[医学-精神病与精神卫生学] 10[医学]
摘 要:目的:轻度认知障碍(mild cognitive impairment,MCI)通常被认为痴呆的前驱阶段。根据认知损害的领域不同,可将MCI分为不同亚型,包括遗忘型(amnestic MCI,a MCI)和非遗忘型MCI(non-amnestic mild cognitive impairment,na MCI),不同亚型的MCI进展终点可能不同,准确识别MCI亚型与量化MCI进展风险对制定个性化的干预措施和推动MCI研究具有重要意义。考虑到目前人工诊断的困难,本研究提出两种MCI亚型识别与可解释性策略,旨在提高MCI亚型识别效能、透明化识别模型决策机制;考虑到MCI进展多终点的事实,本研究利用竞争风险模型对MCI进展为阿尔茨海默病(Alzheimer’s disease,AD)的预后风险进行无偏估计,建立个体化的多时点预测机制,旨在揭示MCI进展AD的潜在因素、促进MCI患者精准治疗。方法:研究数据来源于国家阿尔茨海默病协调中心(National Alzheimer’s Coordinating Center,NACC)数据库。研究对象为NACC中2005年11月~2018年4月首次确诊的MCI患者,分为两类:a MCI和na MCI。纳入研究的特征包含患者的基本信息、神经心理测试以及结构核磁共振(structural Magnetic Resonance Imaging,s MRI)。本研究首先利用最大相关最小冗余、弹性网络、Boruta等特征选择方法对原始数据的神经心理测试和s MRI特征进行稀疏,利用韦恩图保留3种方法的特征交集作为建模特征,随后构建多区块稀疏的偏最小二乘法判别分析(Multiblock sparse Partial Least SquareDiscriminant Analysis,Multiblock s PLS-DA)和6种主流的机器学习(Machine Learning,ML)算法,朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、袋装聚合算法(Bootstrap aggregating,Bagging)、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,Ada Boost)、极限梯度提升(e Xtreme Gradient Boosting,XGBoost)对a MCI和na MCI进行识别,然后将沙普利可加性解释(SHapley Additive ex Planations,SHAP)、局部可解释的模型无关解释(Local Interpretable ModelAgnostic Explanations,LIME)、面向探索和解释的模型无关语言(mo Del Agnostic Language for Exploration and e Xplanation,DALEX)与最优ML模型联合,基于给定个体(28号、34号)实现个性化解释,再基于联合框架与Multiblock s PLS-DA可视化结果,分析重要特征对目标结局的作用方向和大小,实现全局性解释。本研究定义感兴趣的终点事件为5年内MCI进展为AD;竞争事件为MCI进展为其他痴呆,通过构建竞争风险模型量化MCI患者AD进展风险,预测给定个体(2号)不同时点AD进展概率,评价模型的多时点预测的稳定性。结果:特征选择算法共同保留特征数量85个,其中神经心理测试特征24个,s MRI特征61个。两种识别策略中,XGBoost对MCI亚型识别的整体性能最好(AUC=0.8837),随后是Ada Boost(AUC=0.8351)、SVM(AUC=0.8347)、RF(AUC=0.8308)、Bagging(AUC=0.8072)以及NB(AUC=0.7912)。Multiblock s PLS-DA算法整体表现(AUC=0.8419)略低于XGBoost,但高于其他ML模型。个性化解释,XGBoost-SHAP、XGBoost-LIME、XGBoost-DALEX对28、34号个体的a MCI预测概率一致,分别为0.1、0.7。关于28号个体,3种解释算法共有的解释特征包括7个,分别是CEREALL=1073.33、CDRSUM=0.00、ORIENT=0.00、RENT=4.24、CRAFTVRS=17.00、RLATOCCM=2.01、RINSULAM=2.65,且每个特征在3种算法中作用方向保持一致。关于34号个体,3种解释算法共有的解释特征包括5个,分别是CDRSUM=0.00、TRAILB=67.00、CRAFTVRS=4.00、LPRECENM=1.95、RINSULAM=2.49,且每个特征在3种算法中作用方向保持一致。全局