融合多情感的语音驱动虚拟说话人生成方法
Multi-emotion driven virtual speaker generation method integrating multiple emotions作者机构:西北民族大学语言与文化计算教育部重点实验室兰州730030 西北民族大学甘肃省民族语言文化智能信息处理重点实验室兰州730030
出 版 物:《计算机应用研究》 (Application Research of Computers)
年 卷 期:2024年第41卷第8期
页 面:2546-2553页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(62341209) 甘肃省教育教学成果培育项目(2023GSJXCGPY-60) 中央高校基本科研业务费专项资金资助项目(31920230054)
主 题:虚拟说话人 生成对抗网络 Transformer 多情感表达 语音驱动
摘 要:虚拟说话人生成是人工智能领域的一个重要研究方向,旨在通过计算机生成具有逼真语音的虚拟说话人。然而,现有方法往往忽视情绪表达、生成的人脸图像面部细节缺乏真实感,限制了虚拟说话人的表现能力和交互性。为解决这一问题,提出一种基于Transformer的生成对抗网络(generative adversarial network,GAN)方法,用于生成具有不同情绪的虚拟说话人(GANLTB)。该方法基于GAN架构,生成器采用Transformer模型处理语音和图像特征,结合情绪条件信息和潜在空间向量,生成带有指定情绪的语音和图像。判别器用于评估生成结果的真实性,并提供梯度信号指导生成器训练。通过引入双三次插值法,进一步提升了虚拟说话人生成的图像质量,使得虚拟说话人的面部细节更加清晰可见,表情更加自然和生动。使用情感多样性数据集(CREMA-D)验证了该方法,通过主观评估和客观指标,评估了生成的语音和图像的情绪表达能力和质量。实验结果表明,该方法能够生成具有多样化和逼真情绪表达的虚拟说话人。相比目前其他先进方法,所提方法在流畅度和逼真度等细节上都更加清晰,带来了更好的真实感。