咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于stacking融合模型的脂肪肝致病影响因素的筛选分析 收藏
基于stacking融合模型的脂肪肝致病影响因素的筛选分析

基于stacking融合模型的脂肪肝致病影响因素的筛选分析

作     者:张培文 

作者单位:重庆大学 

学位级别:硕士

导师姓名:李曼曼

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 081104[工学-模式识别与智能系统] 08[工学] 100201[医学-内科学(含:心血管病、血液病、呼吸系病、消化系病、内分泌与代谢病、肾病、风湿病、传染病)] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学] 

主      题:脂肪肝 数据清洗 特征筛选 机器学习 stacking集成学习 

摘      要:随着机器学习的各种方法的层出不穷与不断改进,其适用范围也变得越来越广泛。而如今它在生物医学领域相结合的应用也比比皆是。本文旨在探索脂肪肝的患病因素,从地区居民的实际体检数据出发,对脂肪肝疾病的影响因素的重要性进行排序,建立机器学习患病风险预测模型,并对结果进行优劣评价。本文研究利于为医疗工作者提供新视角,进行进一步的病理研究,为脂肪肝疾病患者有效减少诊断成本,并加强相关方面的预防和及时的治疗、诊断工作。本文首先进行了数据的清洗,包括对缺失值进行诊断,并选择使用删除与多重填补法,对异常值通过统计方法及医学背景相结合的方式进行了识别与处理,最后应用Balance Cascade方法对不平衡数据做出处理。本文采用了七种指标筛选的方法,即Lasso回归、交叉验证、随机森林法、过滤法、包装法、IV值法和本文所使用的改进的基于随机森林的Filter特征选择算法。同时运用了K最近邻,朴素贝叶斯,Logistic回归,BP神经网络模型四种初级监督学习算法和Stacking集成算法共五种机器学习算法。基于处理后的实际体检数据,以及筛选后的致病因素分别建立相关的风险预测模型,采用机器学习和诊断医学的几种不同标准对各个模型做出分类预测准确性的评价。最后通过AUC值作为最终评价依据给出模型优劣的结论。在全部的体检数据38个指标中,对脂肪肝患病致病影响最大的9个因素由高到低分别是:体重指数、空腹血糖、总胆固醇、收缩压、动脉粥样硬化指数、r.谷氨酰转肽酶、性别、腰围和淋巴细胞数。其中前三个指标对于脂肪肝患病的解释比例为46.92%,他们共同对于脂肪肝患病的解释比例可达76.03%。在脂肪肝风险预测模型中,对于单一模型来说表现最好的是BP神经网络模型,在未患病群体中被预测出来为阴性的概率为81.2%,患病群体中检测的真阳性率为89.1%,AUC值为0.900。集成模型stacking融合模型中未患病群体被预测出来为阴性的概率为80.7%,患病群体检测的真阳性率为87.5%,AUC值为0.914。由AUC值可以看出数据清洗和变量筛选的工作都是富有成效的,并且集成模型的效果确实优于单一模型。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分