基于语音和面部特征的多模态融合抑郁识别研究
作者单位:齐鲁工业大学
学位级别:硕士
导师姓名:王庆祥
授予年度:2024年
学科分类:0711[理学-系统科学] 1002[医学-临床医学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 100205[医学-精神病与精神卫生学] 10[医学]
摘 要:抑郁症是一种常见的精神障碍疾病。当前,医生主要通过一系列量表评估与临床访谈来判断抑郁症的存在及其严重程度,但这种方法不可避免地受到医生个人经验及患者自我认知能力的限制。随着计算机科技的飞速进步,利用人工智能技术来筛查抑郁症患者已成为一种重要手段。本文则依托深度学习技术,从语音和面部表情特征入手,深入探索了基于单一模态与多模态的抑郁症自动识别方法,旨在更加有效且及时地识别出抑郁症的早期患者。本文的主要工作如下: (1)本文设计了详尽的实验数据采集方案,广泛招募了中国本土的受试者,分为病例组和对照组,并成功实施了自愿面部表情模仿实验和情感词语朗读实验。随后,本文对两个实验的数据进行了数据预处理,从而成功构建了自愿面部表情模仿数据集和情感词语朗读数据集。 (2)针对面部模态的抑郁症识别,本文在自愿面部表情模仿数据集的基础上,利用排列重要性方法对面部表情图像进行了特征分析。考虑到抑郁症患者在面部表情模仿能力上存在明显减弱的问题,本文提出了基于注意力机制的面部特征抑郁症识别模型。与其他先进模型相比,该模型在自愿面部表情模仿数据集上表现出最佳的抑郁症分类性能,准确率、精准率和召回率分别为0.8478、0.8922和0.7913。 (3)针对语音模态的抑郁症识别,本文以情感词语朗读数据集为基础,使用Pearson相关系数对语音数据进行了深入的特征分析,并据此提出了基于语音频谱图的抑郁症识别模型。为了全面评估模型的性能,本文不仅将其与其他优秀的时序模型进行了对比实验,还基于不同情感词语种类进行了深入的对比实验分析。实验结果表明,该方法能够有效地进行抑郁症识别,准确率、精准率和召回率分别为0.8714、0.8679和0.8812。 (4)针对语音和面部特征的多模态抑郁症识别,本文在情感词语朗读数据集的基础上,提出了基于注意力特征融合的语音和面部特征多模态抑郁症识别模型。该模型由面部特征提取模块、语音特征提取模块和注意力特征融合模块构成。注意力特征融合模块可以更好地融合语义和尺度不一致的特征,有效提高了抑郁症识别的准确性和鲁棒性。本文在情感词语朗读数据集上评估了该模型的性能。与其他模型相比,该模型在情感词语朗读数据集上具有最好的抑郁症分类性能,准确率、精准率和召回率分别为0.8958、0.8875和0.8921。