句子级时序卷积网络的多模态抑郁症识别方法
Sentence⁃Level Temporal Convolutional Networks for Multimodal Depression Recognition作者机构:太原师范学院计算机科学与技术学院山西晋中030619 太原学院智能与自动化系山西太原030032
出 版 物:《中北大学学报(自然科学版)》 (Journal of North University of China(Natural Science Edition))
年 卷 期:2024年第45卷第3期
页 面:274-285页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山西省自然科学基金面上项目(201801D121147) 山西省重点研发计划项目(202202150401019) 太原师范学院研究生教育创新资助项目(SYYJSYC-2399)
主 题:抑郁症 时序卷积网络 门控循环单元 自注意力机制 交叉注意力机制
摘 要:针对多模态抑郁症模型在特征提取时,语句间关联性较弱,不同模态间的特征融合较为随意,在中文数据集上模型的泛化能力缺乏验证等问题,本文通过分析与抑郁症相关的音频、文本和视觉特征,提出了基于改进TCN模型的多模态抑郁症识别模型STCMN(Sentence-level Temporal Convolutional Memory Net-work),并将该模型应用于临床抑郁症辅助诊断当中。该模型首先使用残差块、GRU和Self-Attention的融合模块来提取不同模态下的句子级特征,增强了上下文联系,然后使用TCN模型来提取不同模态的全局特征,并使用Cross Attention对不同模态的全局特征以多模态融合特征为主进行融合,最后通过LogSoftmax层得到模型对抑郁症的识别结果。在DAIC-WOZ公开数据集上,本文所提出的方法对抑郁症识别的准确率达到了91.3%,精确率达到了93.6%,召回率达到了89.7%,其相关指标均优于其他方法,可以更好地满足临床医学的需求。在私有中文数据集MMD2022上,STCMN模型的识别结果仍为最优,表明该模型在中文抑郁症识别任务上具较好的泛化能力。