咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合坐标与多头注意力机制的交互语音情感识别 收藏

融合坐标与多头注意力机制的交互语音情感识别

Fusion of coordinate and multi-head attention mechanisms for interactive speech emotion recognition

作     者:高鹏淇 黄鹤鸣 樊永红 GAO Pengqi;HUANG Heming;FAN Yonghong

作者机构:青海师范大学计算机学院西宁810008 藏语智能信息处理及应用国家重点实验室西宁810008 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2024年第44卷第8期

页      面:2400-2406页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(620660039) 青海省自然科学基金资助项目(2022-ZJ-925) 高等学校学科创新引智计划项目(D20035) 

主  题:语音情感识别 坐标注意力机制 多头注意力机制 特定特征学习 共享特征学习 

摘      要:语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组成。前者利用Res2Net和坐标注意力模块学习从原始语音中获取的特定特征,并生成多尺度特征表示,增强模型对情感相关信息的表征能力;后者融合前向网络所获取的特征,组成共享特征,并经双向长短时记忆(BiLSTM)网络输入至多头注意力模块,能同时关注不同特征子空间中的相关信息,增强特征之间的交互性,以捕获判别性强的特征。通过2个子网络间的协同作用,能增加模型特征的多样性,增强特征之间的交互能力。在训练过程中,应用双损失函数共同监督,使同类样本更紧凑、不同类样本更分离。实验结果表明,MIAN在EMO-DB和IEMOCAP语料库上分别取得了91.43%和76.33%的加权平均精度,相较于其他主流模型,具有更好的分类性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分