一种基于语音、文本和表情的多模态情感识别算法
A multimodal emotion recognition algorithm basedon speech,text and facial expression作者机构:青岛大学自动化学院山东青岛266071 青岛大学未来研究院山东青岛266071 山东省工业控制技术重点实验室山东青岛266071
出 版 物:《西北大学学报(自然科学版)》 (Journal of Northwest University(Natural Science Edition))
年 卷 期:2024年第54卷第2期
页 面:177-187页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划“智能机器人”专项资助项目(2020YFB1313600) 青岛市自然科学基金资助项目(23-2-1-126-zyyd-jch) 山东省高等学校优秀青年创新团队支持计划项目(2022KJ142)
摘 要:针对当前多模态情感识别算法在模态特征提取、模态间信息融合等方面存在识别准确率偏低、泛化能力较差的问题,提出了一种基于语音、文本和表情的多模态情感识别算法。首先,设计了一种浅层特征提取网络(Sfen)和并行卷积模块(Pconv)提取语音和文本中的情感特征,通过改进的Inception-ResnetV2模型提取视频序列中的表情情感特征;其次,为强化模态间的关联性,设计了一种用于优化语音和文本特征融合的交叉注意力模块;最后,利用基于注意力的双向长短期记忆(BiLSTM based on attention mechanism,BiLSTM-Attention)模块关注重点信息,保持模态信息之间的时序相关性。实验通过对比3种模态不同的组合方式,发现预先对语音和文本进行特征融合可以显著提高识别精度。在公开情感数据集CH-SIMS和CMU-MOSI上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率,三分类和二分类准确率分别达到97.82%和98.18%,证明了该模型的有效性。