基于机器学习的糖尿病风险预测模型与实证研究
Diabetes Risk Prediction Model and Empirical Research Based on Machine Learning作者机构:湖州师范学院信息工程学院浙江湖州313000 湖州师范学院经济管理学院浙江湖州313000
出 版 物:《湖州师范学院学报》 (Journal of Huzhou University)
年 卷 期:2022年第44卷第8期
页 面:55-62页
学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程]
摘 要:从机器学习算法出发,采用十折交叉验证和Grid Search网格搜索方法优化超参数.以Pima印第安人糖尿病数据集为研究对象,运用描述性统计、四分差法、特征重要性分析等方法处理数据集,分别使用逻辑回归、支持向量机(SVM)、Boosting、Bagging、Stacking集成学习方法构建糖尿病风险预测模型,并比较各个集成模型的评估指标.为验证模型在其他数据集上的有效性,运用浙江某医院体检数据集进行验证,从而评价各模型的预测效果.结果发现:Stacking集成模型在Pima印第安人数据集上的预测准确率最高,达83.74%,精确度也最好,达80.0%;Stacking集成模型同样适用于体检数据集,其准确率最高,达93.83%.可见,基于Stacking集成学习方法构建的预测模型的准确度更高、适用性较好.