基于ACS-Stacking算法的妊娠期糖尿病预测模型研究
作者单位:杭州师范大学
学位级别:硕士
导师姓名:俞凯
授予年度:2022年
学科分类:1002[医学-临床医学] 100211[医学-妇产科学] 10[医学]
主 题:妊娠期糖尿病 IV值 集成学习 基分类器筛选 元分类器 ACS-Stacking
摘 要:妊娠期糖尿病是妊娠期常见的并发症,严重威胁着孕妇、胎儿和新生儿的健康,还会造成多种不良妊娠结局。尽管现代医学的发展水平越来越高,但妊娠期糖尿病的患病率仍在逐渐增加。在孕早期诊断妊娠期糖尿病并及时干预,可降低患病风险,有效改善妊娠结局。而现行的筛查方式在孕中期执行,无法满足从孕早期开始预防和管理的需要。本文利用数据挖掘、机器学习等手段,提出一种妊娠期糖尿病的风险预测模型,能够在妊娠早期识别妊娠期糖尿病高危人群,为对高危孕产妇进行及时干预,改善妊娠结局,减轻短期和长期的不良后果提供了可能。本文根据孕妇基本信息、孕早期临床指标以及基因信息等数据,利用数据挖掘手段,结合集成学习Stacking算法,提出了ACS-Stacking算法,建立妊娠期糖尿病的风险预测模型。本文的工作内容主要分为以下三个部分:(1)首先对妊娠期糖尿病数据集进行探索性分析,针对数据质量较低、缺失严重等问题,结合多种方法完成了数据预处理工作。通过箱型图辅助完成了异常值检测与处理,通过对缺失值的统计和可视化分析,掌握了缺失值信息,完成了特殊的缺失值处理。通过IV值分析完成了特征分析与选择。最后通过可视化描述展示了数据的分布和特点。(2)以Stacking算法作为基线模型,经过改进提出了ACS-Stacking算法。算法改进包括元层输入属性特征的改变、基分类器的选择、基分类器筛选层和结合策略的应用。将基分类器输出的类别概率值作为基层输出结果,元层使用GBDT模型来学习组合基层输出的类别概率结果,并拓展了算法的层次结构,在基分类器层与元分类器层之间加入基分类器筛选层,通过CFS算法估计不同分类器集合中个体分类器准确性与多样性的权衡值,筛选出最佳基分类器集合,实现基分类器的自适应选择。(3)基于临床数据、基因数据、多源混合数据进行妊娠期糖尿病预测,利用以上算法构建了早期妊娠期糖尿病的风险预测模型。在实验中,我们使用多种模型,分别完成训练、测试与性能评估。实验结果表明,本文提出的ACS-Stacking模型预测性能更好、稳定性更高。在性能实验中,ACS-Stacking模型也取得了更为优异的性能,能够更好地预测妊娠期糖尿病。本文的主要贡献在于对Stacking算法进行了改进,提出了ACS-Stacking算法,并将其应用到了妊娠期糖尿病的预测中,能够提前在孕中期进行的糖尿病筛查时间,为早发现、早干预提供了条件。