基于BLSTM-RNN的语音驱动逼真面部动画合成
Speech-driven video-realistic talking head synthesis using BLSTM-RNN作者机构:西北工业大学计算机学院、陕西省语音与图像处理重点实验室西安710072 微软亚洲研究院北京100080
出 版 物:《清华大学学报(自然科学版)》 (Journal of Tsinghua University(Science and Technology))
年 卷 期:2017年第57卷第3期
页 面:250-256页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:虚拟说话人 面部动画 双向长短时记忆(BLSTM) 递归神经网络(RNN) 主动外观模型(AAM)
摘 要:双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。