咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于时空特征融合的语音情感识别 收藏

基于时空特征融合的语音情感识别

Speech Emotion Recognition Based on Spatio-temporal Feature Fusion

作     者:彭涛 郑传锟 张自力 刘军平 胡新荣 何儒汉 PENG Tao;ZHENG Chuankun;ZHANG Zili;LIU Junping;HU Xinrong;HE Ruhan

作者机构:纺织服装智能化湖北省工程研究中心湖北武汉430200 湖北省服装信息化工程技术研究中心湖北武汉430200 武汉纺织大学计算机与人工智能学院湖北武汉430200 

出 版 物:《郑州大学学报(理学版)》 (Journal of Zhengzhou University:Natural Science Edition)

年 卷 期:2022年第54卷第4期

页      面:42-48页

学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 08[工学] 081104[工学-模式识别与智能系统] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程] 

基  金:湖北省教育厅青年项目(Q201316) 湖北省教育厅科研计划重点项目(D20191708) 

主  题:语音情感识别 膨胀卷积网络 长短期记忆神经网络 注意力机制 

摘      要:语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分