结合梯度提升树算法与可解释机器学习模型SHAP的抑郁症影响因素研究
Detecting Depression Factors with Gradient Boosting Tree and Explainable Machine Learning Model SHAP作者机构:中山大学信息管理学院广州510275
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2024年第8卷第3期
页 面:41-52页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 120502[管理学-情报学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:2022广州社会科学基金项目(项目编号:10000-42220402)的研究成果之一
主 题:抑郁症预测 在线用户生成内容 可解释机器学习 梯度提升树算法
摘 要:【目的】本研究旨在探讨构建抑郁严重度预测模型及其解释性问题,通过分析互联网用户生成的内容,进一步发展抑郁症风险预测研究,从而提高抑郁症自动检测模型的可靠性和实用性。【方法】通过收集“好大夫在线平台上的抑郁症医疗咨询文本记录,构建了一个语料库。利用心理学词典,从中提取了患者的心理特征,并采用梯度提升树算法预测患者的病情,同时引入可解释机器学习方法SHAP解读模型,借助SHAP独特的可视化图表剖析患者年龄、性别、认知、情感、感知、社会家庭及个人得失与抑郁症发生之间的复杂关系。【结果】抑郁症患者心理状态能反馈患者病况,利用从患者问诊记录中提取的心理特征能够有效检测重度抑郁,准确率达到86%。可解释机器学习模型SHAP解释了模型的预测结果,揭示出患者各层面心理特征对抑郁症发生产生的多重效应。【局限】受语料集所限,仅利用单次问诊记录对抑郁程度做预测;而模型特征基于心理学词典,更多与抑郁症发生风险有关的要素可纳入建模考虑中。【结论】影响抑郁症产生及发展的因素复杂。个体差异致使各项特征对于疾病预测产生不同效应。构建抑郁症的自动诊断模型,不仅要关注模型的精准度,更需增强对模型预测的理解。