基于多模态特征融合的视频中人物情绪识别算法研究
作者单位:南京邮电大学
学位级别:硕士
导师姓名:李玲娟
授予年度:2022年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:情绪识别 注意力机制 3D卷积网络 稀疏编码树 字典学习
摘 要:情绪识别是计算机视觉领域近几年来研究较多的课题。目前的研究成果主要集中在仅基于面部表情的情绪识别或仅基于身体动作的情绪识别方面,但这些单模态的情绪识别算法泛化能力并不强,并且准确率也存在提高的空间。为了提高情绪识别的准确率,本文对基于多模态特征融合的视频中人物情绪识别算法进行研究,重点研究如何综合运用面部表情特征和身体动作特征来进行视频中人物情绪的识别。首先,以提高情绪识别的准确率为目标,设计了一种融合面部表情和身体动作特征的人物情绪识别算法FBER。该算法使用C3D网络提取视频中面部表情与身体动作的时空特征;在稀疏编码树的框架下,使用MOD算法对所提取的特征向量进行字典学习;利用SVM分类器进行情绪分类识别。基于FABO数据集进行的人物情绪识别实验结果表明,无论与仅针对面部表情或仅针对身体动作的单模态情绪识别算法相比,还是与其它的融合面部表情和身体动作的情绪识别算法相比,FBER算法都具有更高的准确率。接着,考虑到面部表情特征和身体动作特征的提取对情绪识别效果有着直接的影响,以更有效地提取视频中人物的面部表情和身体动作特征为目标,对C3D网络进行改进,设计了基于注意力机制的3D卷积网络AM-C3D。AM-C3D将CBAM注意力机制与3D卷积进行集成,形成3DCBAM注意力机制,然后将3DCBAM注意力机制与C3D网络结合,以此提高对视频中的通道特征和空间特征的利用率,增强感兴趣的特定目标区域,同时弱化不相关的背景区域;在真实数据集FABO上的实验结果表明AM-C3D网络比C3D网络具有更好的识别效果。最后,将AM-C3D应用到FBER算法中,形成基于AM-C3D的FBER算法AM-FBER,进一步提高视频中人物情绪识别的准确率。为了检验AM-FBER算法的有效性和实用性,开发了一个较为简单的观影情绪识别原型系统。该系统使用AM-FBER算法对人们观影时的视频进行情绪识别。应用结果表明,AM-FBER算法能够有效地应用到观影情绪识别原型系统中,较为准确地识别出观影时的情绪。