基于数据挖掘的早期胃癌风险预测模型研究
作者单位:广东药科大学
学位级别:硕士
导师姓名:蔡永铭
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 1002[医学-临床医学] 100214[医学-肿瘤学] 10[医学]
主 题:早期胃癌 风险预测 C5.0决策树 树扩展的朴素贝叶斯网络 多层感知神经网络 支持向量机 SMOTE
摘 要:目的在我国,虽然胃癌是一种发病率和死亡率较高的恶性肿瘤,但是早期胃癌患者若即时接受根治性治疗,即手术切除,其术后5年生存率较高,因此加强早期胃癌的诊断筛查是挽救胃癌患者生命及提高患者生存质量的关键。目前我国早期胃癌检出率很低,亟待提高,以往提高早期胃癌检出率的方法大多是改良胃镜检查和病理组织活检等临床技术,这些技术对患者有一定的创伤,依从性低,普及率低,因此我国目前早期胃癌检出率很低。本研究的目的是根据胃病患者基本信息、饮食习惯、近期主要症状、疾病家族史、疾病既往史和血清学检查等多种非侵入性因素,采用数据挖掘方法建立早期胃癌风险预测模型,同时分析对早期胃癌风险预测有重要影响的因素,以期在有创的胃镜检查和病理组织活检之前辅助临床筛查早期胃癌风险,可进一步促进提高早期胃癌检出率。方法本研究的数据来源于与广东药科大学附属第一医院合作的科研项目。该项目收集了在广东地区30家医疗单位消化内科就诊的胃病患者的问卷调查、血清学检查和胃镜检查加病理组织活检数据。其中调查问卷内容主要涉及患者的基本信息、饮食习惯、近期主要症状、疾病家族史和疾病既往史。收集胃病患者的胃镜检查加病理组织活检结果数据,为早期胃癌诊断的“金标准,并根据此结果划分患者早期胃癌风险类别。以问卷调查和血清学检查结果为预测指标,早期胃癌风险类别为分类目标,对收集的数据进行预处理,包括数据清洗,利用相关分析方法筛选与早期胃癌风险类别相关的预测指标,分割原始样本数据为训练集(70%)和测试集(30%),以及采用合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)处理训练集分类不平衡问题。根据C5.0决策树(C5.0 Decision Tree,C5.0DT)、树扩展的朴素贝叶斯网络(Tree Augmented Naive Bayesian Network,TAN)、多层感知神经网络(Multilayer Perceptron,MLP)和支持向量机(Support Vector Machine,SVM)算法建立早期胃癌风险预测模型,同时计算各相关指标影响早期胃癌风险预测的重要性,并以混淆矩阵、准确率、敏感性、受试者工作曲线下面积(Area under the Receiver Operator Characteristic Curve,AUC)值和收益图等多种指标评估模型的预测效果。结果经清洗原始数据,本研究共纳入798例胃病患者数据,筛选出24项与早期胃癌风险类别相关的预测指标,利用平衡分类后的训练集建立了四个基于数据挖掘的早期胃癌风险预测模型,包括C5.0 DT、TAN、MLP和SVM。评价各模型对测试集的预测效果,四个早期胃癌风险预测模型的准确率相差不大,C5.0 DT和TAN的AUC值更大,收益效果更佳,且在临床实际应用中可解释性更强,TAN和MLP对早期胃癌高风险患者预测准确性更高,每个指标评估SVM,其预测效果都很差。所以,本研究建立的TAN是相对较优的早期胃癌风险预测模型,C5.0 DT次之,其次是MLP,最差的是SVM。此外,根据预测效果较好的三个模型计算各相关指标影响早期胃癌风险预测重要性的结果,筛选出10个对早期胃癌风险有重要影响的指标,包括既往Barrett食管、既往不典型增生上皮内瘤变、既往胃溃疡、常吃水果、既往Hp感染和近期主要症状:反酸等。结论本研究整合多种非侵入性因素,建立了四个早期胃癌风险预测模型,经对比评估TAN是较优的模型,并且筛选出10个对早期胃癌风险预测有重要影响的指标。利用该预测模型和筛选的重要影响指标可辅助临床医生快速评估患者患早期胃癌的风险类型,引起医生和患者的关注,医生对初步评估结果为早期胃癌高风险的患者再进行胃镜检查加病理组织活检确认,形成一种早期胃癌分级筛查策略,这种策略伤害小,依从性高,有助于普遍提高基层医疗单位早期胃癌检出率。从患者和健康人群角度来看,可提示人们改善自身饮食生活习惯,定期到医疗单位检查,尽早预防和诊断胃癌的发生。本研究结果可在一定程度上帮助临床研究人员选择和实施最优的早期胃癌风险预测模型,以及评估早期胃癌风险预测的重要影响指标。