咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于MobileNetV3的单模态表情识别及融合语音的双模态... 收藏
基于MobileNetV3的单模态表情识别及融合语音的双模态情感识别研...

基于MobileNetV3的单模态表情识别及融合语音的双模态情感识别研究与应用

作     者:李月 

作者单位:华东师范大学 

学位级别:硕士

导师姓名:曹桂涛

授予年度:2023年

学科分类:0711[理学-系统科学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:人脸表情识别 双模态情感识别 注意力机制 轻量化 表情和语音 

摘      要:近十年来,深度卷积神经网络的兴起和发展使得以人为中心的视觉感知计算,尤其是在人脸表情识别领域取得了重要进展。本文旨在提高表情识别领域中轻量化和多模态结合的问题,提出了多种改进方案,以提高单模态和双模态表情识别的准确率和效率。本文的主要工作包括:针对单模态静态表情识别中现有轻量化网络识别精度有待提升的问题,本研究基于轻量级Mobile Net V3-Small模型提出了一系列改进方案显著提升了表情识别的准确率。具体包括:使用不同的Bneck精简策略减少模型参数提升网络抗过拟合能力,采用注意力机制提升模型对表情特征的敏感度,构建深浅特征融合网络获取多尺度的表情信息,应用迁移学习优化训练策略加速网络收敛并提升模型识别精度。实验结果显示,本文提出的方案在自制混合表情数据集上都超过了原始模型的识别准确率。其中最优精简方法减少18%的Bneck数量可抑制5%的过拟合,提出的CTAM-Mobile Net V3s平均识别精度提升5.64%,深浅特征融合网络提高了表情识别精度3.14%。针对双模态表情识别模型复杂且不够轻量的问题,本研究基于VAANet框架提出了一种融合面部表情和语音的双模态情感识别模型FSANet,通过引入3D卷积的CTAM-Mobile Net V3s作为视觉流的骨干特征提取网络,并使用坐标注意力机制替换原有的空间注意力机制。实验结果表明,在公开情感识别数据集e NTERFACE’05和RAVDESS上,FSANet的准确率比VAANet分别提高了6.17%和3.90%,同时模型大小和参数数量分别为VAANet的1/3和1/7,大幅减少了模型复杂度。本文基于上述提出的模型方法设计并实现了表情识别系统,该系统主要包含静态图像的表情识别和融合面部表情和语音的双模态情感识别2个核心模块,为实际场景的情感分析提供了有力支持。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分