说话人感知的交叉注意力说话人提取网络
Speaker-Aware Cross Attention Speaker Extraction Network作者机构:广东工业大学计算机学院广东广州510006 汕头大学理学院广东汕头515063
出 版 物:《广东工业大学学报》 (Journal of Guangdong University of Technology)
年 卷 期:2024年第41卷第3期
页 面:91-101页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:科技创新2030-“新一代人工智能”重大项目(2021ZD0111501) 国家优秀青年科学基金资助项目(62122022) 国家自然科学基金资助项目(61876043,61976052,62206064)
主 题:语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
摘 要:目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。