咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的视频情感识别研究 收藏
基于深度学习的视频情感识别研究

基于深度学习的视频情感识别研究

作     者:高永 

作者单位:合肥工业大学 

学位级别:硕士

导师姓名:胡敏

授予年度:2020年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0811[工学-控制科学与工程] 

主      题:深度学习 表情识别 边缘检测 时空特征 注意力机制 

摘      要:作为表达情感的一种方式,表情是比较自然和直接的,它在我们的日常生活中扮演者非常重要的角色,在某些场合中,表情有时比语言更能有效的传达出内心的真实情感。表情的产生是一个动态变化的过程,在单张静态图片中,通常包含的特征信息有限,而在视频序列中呈现的表情,则提供了更加充分的上下文信息,表情产生的机理得到进一步的满足,在研究过程中提供的信息会更加丰富,在计算机方面技术正快速进步,基于图像序列的情感研究得到越来越多的重视。本文的研究重点是视频序列,为了能高效提取视频序列中的时空特征信息,提出了相关算法,论文的具体工作内容如下:(1)提出一种加权双流网络模型。使用传统方法进行提取表情特征时,算法提取的特征通常是设定在固定空间内,鲁棒性能有待进一步提高,随着深度学习的发展和公开数据集的增加,可以很好的解决类似问题。在单流卷积网络中,通常关注的重点是空间特征,忽略了视频序列中存在的上下文信息,而双流网络模拟人体视觉过程,在处理空间信息的同时,对视频中的时序信息也有更好的理解,所以使用双流网络作为模型结构,同时为了更好的获取图像序列中帧与帧之间隐藏的时间信息,在模型中加入LSTM网络结构,双流网络模型中,其中一个网络流输入原始图像,另一个网络流输入处理货梯度边缘检测图,最终的结果是两个网络结果的加权融合,在公开人脸表情数据集上实验,最终结果表明了该网络结构的准确性。(2)在视频序列中,每张图片包含的表情强度是不一致的,针对每张图片的贡献不同,应当使用合适的方法进行区分,本文提出一种结合注意力机制的视频表情识别网络,使用端到端的CNN-RNN网络结构,在RNN网络之后使用注意力机制,具体来说使用的CNN是Resnet,RNN结构是双向LSTM网络结构。网络的主要工作流程是将卷积部分学习到的高级抽象特征,传送到双向LSTM网络中进行学习视频序列间的时间依赖关系,得到视频序列的最终表示后,最后使用注意力机制,增加重要特征的权重系数,减少次要特征的影响,在CK+和MMI库上的实验,表明了该章网络的正确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分