基于KM-SMOTE随机森林算法的心血管疾病预测模型研究
作者单位:重庆大学
学位级别:硕士
导师姓名:王坤
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 081104[工学-模式识别与智能系统] 08[工学] 100201[医学-内科学(含:心血管病、血液病、呼吸系病、消化系病、内分泌与代谢病、肾病、风湿病、传染病)] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学]
主 题:心血管疾病预测 K-means算法 SMOTE算法 随机森林模型
摘 要:现代医疗作为政府最重视的民生保障,在互联网+的时代不断地进行着变革。传统的人工医疗渐渐地不能够满足行业的发展和人民的需求,因此医疗系统的信息化与数字化转型迫在眉睫。许多学者将医学数据与人工智能、机器学习模型相结合,建立了新兴的数字化医疗技术,辅助医生进行疾病诊断的同时,也大大节省了医疗行业的人力物力资源,这种双赢的局面使得互联网医疗技术成为不断发展的热点技术,为数字化医疗的发展带来更多更新的动力。心血管疾病作为当代全球发病率最高的疾病,由于心血管疾病有较为复杂的病因、较高的死亡率和愈后残疾的情况,结合现代人们压力大、作息不规律、暴饮暴食等问题,心血管疾病的发病朝着年轻化的趋势发展,因此对于心血管疾病患病情况的预测与防范是非常急迫的事情。本文选取了2019年Kaggle网站上的心血管疾病数据作为研究对象,首先将数据进行预处理,填补数据的缺失值并将心血管疾病数据的12个影响指标进行量化,将是否患有心血管疾病转化为定量二分类数据。接下来建立基于K-means算法的改进KM-SMOTE算法,该算法以SMOTE算法为基础,能够处理数据集中的数据不平衡问题。KM-SMOTE算法首先利用K-means算法聚类少数集样本,聚类后得到K组数据,并基于插值估算近似值,利用每一组内的样本生成更多少数类样本,这样做可以改善SMOTE算法影响源数据分布以及边缘化少数类样本的问题。以KM-SMOTE算法处理后的平衡数据为样本,前70%为训练集数据,后30%为测试集数据,建立随机森林模型对心血管疾病进行预测,得到的预测结果为:准确率为92.4%、召回率为90.0%、精确度为89.8%、FScore值为89.9%、AUC值为0.916,表示KM-SMOTE随机森林模型能够很好的预测心血管疾病。新增2021年心血管疾病数据集验证模型准确率,对2021年新数据建立KM-SMOTE随机森林模型,各指标均为0.9以上,表明KM-SMOTE随机森林模型对不同年份的数据均有较好的预测精度。同时,将KM-SMOTE随机森林与传统随机森林模型和SMOTE随机森林模型的预测情况进行对比,KM-SMOTE-RF模型的各项指标都明显高于其他两个模型,意味着改进的KM-SMOTE算法对不平衡数据集的处理有着较好的效果。