咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >集成学习和决策树在2型糖尿病前瞻性风险评估中的应用 收藏

集成学习和决策树在2型糖尿病前瞻性风险评估中的应用

Application of ensemble learning algorithm and decision tree in prospective risk assessment of type 2

作     者:刘睿懿 曲翌敏 刘璇 江宇 LIU Ruiyi;QU Yimin;LIU Xuan;JIANG Yu

作者机构:中国医学科学院北京协和医学院群医学及公共卫生学院流行病与生物统计学系北京100730 

出 版 物:《中国慢性病预防与控制》 (Chinese Journal of Prevention and Control of Chronic Diseases)

年 卷 期:2023年第31卷第4期

页      面:278-283,288页

核心收录:

学科分类:1002[医学-临床医学] 100201[医学-内科学(含:心血管病、血液病、呼吸系病、消化系病、内分泌与代谢病、肾病、风湿病、传染病)] 10[医学] 

主  题:糖尿病,2型 风险评估 机器学习 

摘      要:目的比较多种集成学习算法和决策树(DT)在构建中国45岁及以上中老年人2型糖尿病(T2DM)前瞻性风险评估模型中的性能差异,为集成学习算法在中老年人T2DM预防与控制中的应用提供理论依据。方法数据来源于2011—2015年中国健康与养老追踪调查项目,选取其中7979名45岁及以上中老年人为研究对象。收集研究对象基线社会人口学特征、生活方式与健康行为、疾病史、体格检查和实验室检查结果。采用Python 3.7.6和R 4.1.2软件构建DT、随机森林(RF)、自适应提升算法(AdaBoost)、轻量级梯度提升机(LightGBM)和极端梯度提升(XGBoost)模型。在训练集中处理不平衡数据并优化超参数,采用5折交叉验证评估模型效能。根据默认阈值、平均灵敏度高于80%时阈值,计算受试者工作特征曲线下面积(AUC)、灵敏度和特异度;计算默认阈值下净重新分类改善指数(NRI)和综合判别改善指数(IDI)。结果7979名研究对象中,T2DM患者为1061例(13.3%)。默认阈值下,RF、AdaBoost、LightGBM和XGBoost 4种集成学习算法平均AUC分别为0.640±0.023、0.634±0.014、0.647±0.013和0.645±0.011,均优于DT算法(平均AUC为0.601±0.027)。调整阈值后,5种机器学习算法的平均灵敏度分别为0.833±0.097、0.863±0.039、0.870±0.044、0.826±0.033和0.852±0.067。NRI评价结果显示,LightGBM模型效果好于DT、RF、AdaBoost和XGBoost模型,差异均有统计学意义(NRI值分别为0.149、0.243、0.258和0.232,P0.05,P0.01)。IDI评价结果显示,相对于DT、RF、AdaBoost和XGBoost模型,LightGBM模型的效能分别提高了5.3%、8.7%、7.4%和7.4%,差异均有统计学意义(P0.01)。LightGBM模型特征重要度前10位依次为糖化血红蛋白、空腹血糖、尿酸、肌酐、中心性肥胖、血尿素氮、体质指数、脉搏、高血压史和年龄。结论LightGBM算法在中国中老年人2型糖尿病前瞻性风险评估中的效能优于DT、RF、AdaBoost和XGBoost算法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分